深度 阐释 Linux 操 作 系 统 原 理 的 里 程 碑 之 作 ， 由 拥有 超过 10 年 研 点 经 验 的 资深 
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以 从 雪 开 始 枸 建 一 个 完整 的 Linux 操 作 系统 的 过 程 为 依托 ， 守 观 上 全 面 厘清 了 
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作 系 统 的 本 质 
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8.4 3D 注 次 





章 以 此 书 献 给 恩师 棱 明 树 先 生 。 


为 什么 要 与 这 本 市 


真正 认真 开始 学 习 计算 机 是 在 2000 年 ， 当 时 书店 里 到 处 充斥 着 一 系 
列 如 “21 天 精通 xxx”、“7 天 掌握 xxx” 之 类 的 图 书 ， 更 有 其 者 宣称 “24 小 时 
学 会 XXx”。 既 是 蜗 科 搁 ， 叉 这么 容易 学 ， 谁 会 拒绝 呢 ? 于 是 我 走 上 了 这 
一 行 。 了 最 初 ， 确 实 如 这 些 书 所 说 ， 只 要 按照 书 中 摘 述 ， 将 医 似 于 Visual 
Studio 等 IDE 安 猴 到 机 郝 上 ， 然 后 像 拱 积木 一 样 ， 拖 搜 几 个 控件 ， 再 添 
加 几 行 代码 ， 一 个 程序 残 守 成 了 。 


短暂 的 兴奋 后 ， 好 奇 心 驱使 我 想 更 深层 次 地 探索 这 一 切 是 如 何 发 生 
的 。 于 是 我 开始 关注 更 多 的 书籍 、 更 多 的 文章 、 更 多 的 编程 参考 ， 国 内 
的 、 国 外 的 。 但 是 ， 结 果 让 我 很 泪 背 ， 如 有 果 依 然 是 用 积木 来 举例 子 ， 我 
发 现 它 们 的 区 别 束 像 一 盒 10 块 的 积木 和 一 盒 100 块 的 积木 ， 只 有 量 的 变 
化 ， 没 有 质 的 区 列 。 有 人 说 Win32 编 程 更 抵 层 ， 于 古 我 执 开 MFC， 研 究 
Win32 编 程 。 但 是 ， 结 局 一 样 让 我 失望 。 其 实 它们 也 没有 本 质 区 别 ， 只 
不 过 如 果 把 MEFC 比 作 大 块 积 木 ，Win32 是 小 块 积木 而 已 。 其 间 我 又 遍 寻 
那些 Windows 内 幕 的 书 进行 研读 ， 也 是 色 羽 而 归 ， 似 乎 前 方 已 无 路 可 


2003 年 4 月 毕业 后 ， 我 到 了 中 科 院 软件 所 工作 ， 开 始 从 事 与 Linux 相 


关 的 开发 。 经 历 了 从 Windows 到 Linux 转 型 的 阵痛 后 ， 我 开始 喜欢 上 了 

Linux， 因 为 它 是 开源 的 ， 我 似乎 看 到 了 上 蜡 光 。 于 是 我 开始 状 狂 地 购 关 
Linux 方 面 各 种 各 样 的 书籍 ， 阅 读 各 种 权威 资料 ， 基 本 上 网 络 上 各 种 权 
威 专家 推 存 的 书籍 在 我 的 书 果 上 全 部 可 以 找到 。 其 中 ， 绝 大 部 分 是 天 于 
由 核 源码 分 析 的 书 ， 于 征 我 一 头 扎 进 讲解 内 核 源 但 分 析 的 书 中 。 但 是 我 
很 快 淹没 在 庞大 的 内 核 代码 中 ， 几 次 者 到 了 难以 坚持 的 程度 但 十 我 强 
迫 目 己 坚 持 ， 强 制 目 己 接受 作者 的 灌输 。 但 是 ， 最 终 的 结 末 是 :看 的 时 
候 似 乎 明白 ， 但 是 看 完 后 感觉 义 什 么 也 没有 看 。 现 在 回头 看 ， 当 初 很 有 
氮 像 “下 人 摸 象 ”* 这 个 典故 所 搞 述 的 ， 在 我 还 没有 看 清 整 个 “大 象 ” 的 时 

候 ， 我 吏 直 接 去 研 客 “大 象 ” 的 东 些 部 分 的 构造 了 。 


仿 得 中 ， 我 义 看 到 了 万 外 一 条 路 ， 低 版 本 的 内 核 。 我 惑 像 一 个 在 沙 
党 中 包 淘 难 妨 的 人 突然 看 到 了 绿洲 ， 我 甚至 将 低 版 本 的 内 核 打 印 出 纸 
版 ， 然 后 束 像 拿 看 伟人 语录 一 样 ， 只 要 竟 得 空 队 ， 束 虔 城 地 潜心 研读 。 
但 是 这 条 新 路 除了 代码 量 小 了 点 ， 与 乙 前 的 相 比 并 设 有 太 多 本 质 的 区 
别 ， 而 且 还 有 一 个 致命 的 缺点 一 一 早期 版 本 的 内 核 不 能 和 工作 中 使 用 的 
Linux 很 好 地 结合 。 


2005 年 ， 我 从 软件 所 被 小 到 了 中 科 红 旗 。 最 初 从 事 果 面 扣 作 系统 的 
开 及 ， 使 用 的 十 基 于 Qt 的 KDE， 因 为 比较 成 熟 ， 所 以 当时 做 得 更 多 的 十 
一 些 维护 工作 。 但 是 在 我 的 探索 过 程 中 依然 重复 看 上 面 鸭 故事 ， 没 有 任 
何 的 起 色 。 转 折 大 概 出 现在 2007 年 ，Intel 因 为 一 个 低 功 耗 平台 项 目 开 始 


和 中 科 红 旗 合 作 ， 他 们 要 在 低 功 耗 平台 上 开 肥 一 余 Linux 操 作 系 统 ， 我 
接手 了 这 项 工作 。 因 为 这 个 平台 的 处 理 占 性 能 相对 要 低 ， 所 以 对 于 操作 
系统 的 要 求 比较 局 。 同 时 因为 用 于 消 肌 闫 电 子 产 品 ， 用 户 体 验 要 求 也 与 
普通 的 PC 环境 完全 不 同 。 所 以 ， 基 于 已 有 的 果 面 系统 几乎 是 不 可 能 

了 。 于 和 是， 我 们 开始 从 头 开 肥 和 定制。 


这 个 从 零 开始 的 过 程 ， 让 我 彻 撒 认识 了 整个 Linux 操 作 系 统 ， 而 不 
仅仅 是 Linux 的 内 核 。 兽 经 对 内 核 中 很 多 做 法 和 模块 不 明了 ， 通 过 构建 
整个 操作 系统 ， 我 牢 然 开朗。 比如 ， 内 核 中 的 DRM 模 块 ， 其 全 称 是 
Direct Rendering Manager， 从 字面 上 看 是 直接 演 染 管理 ， 这 到 底 是 什么 
意思 ? 如 果 你 仅仅 从 内 核 的 角度 来 理解 ， 相 信 我 ， 你 永远 也 不 能 正确 理 
解 它 。 恰 恰 是 在 构建 系统 时 ， 莱 手 组 滩 和 调试 图 形 环 境 ， 包 括 X、 
OpenGL、2D/3D 图 形 驱 动 ， 让 我 明日 了 DRM 的 用 途 。 这 材 的 例子 举 不 
Ns 


经 过 这 个 过 程 中 ， 我 深刻 认识 到 ， 学 习 操 作 系 统 ， 有 三 件 最 重要 的 
事 : 第 一 是 实践 ， 第 二 依然 古 实 践 ， 第 三 还 是 实践 。 老 祖宗 说 “ 纸 上 得 
来 终 觉 浅 "， 唯 物 主义 者 说 “实践 是 检验 真理 的 唯一 标准 *”， 两 句 话 中 部 
强 含 看 同一 个 过 理 一 一 追求 真理 离 不 开 实 践 。 只 是 阅读 、 分 析 源 人 码 还 远 

远 不 够 ,我 们 要 动手 实践 ， 从 实践 中 和 学习， 实践 有 反 过 来 再 促进 思考 。 而 
且 ， 实 践 也 使 学 习 不 再 是 一 个 杜 燥 乏味 的 负担 ， 而 古 一 个 乐趣 。 


通过 这 个 过 程 ， 我 也 体会 到 ， 即 使 只 为 了 学 习 内 核 ， 也 不 能 将 目光 


全 部 放 在 内核 上 。 从 整个 操作 系统 的 角度 ， 从 各 个 组 件 间 关 系 的 角度 理 
解 内 核 ， 效 来 反而 更 好 。 当 对 整个 系统 有 了 深入 的 理解 后 ， 册 去 理解 组 
成 操作 系统 的 各 个 组 件 ， 会 事半功倍 。 一旦 从 总 体 上 理解 了 系统 ， 你 就 
会 “ 艺 噩 人 胆 大 ， 束 可 以 尽情 地 “折腾 ”Linux 系 统 了 ， 因 为 每 一 个 组 件 尽 
在 你 的 掌握 乙 中 。 而 恰恰 在 这 不 断 的 “折腾 ?中 ， 理 论 又 得 到 不 断 的 提 
局 ， 从 此 进入 一 个 民 性 循环 。 


很 车 我 吏 想 把 这 种 方法 整理 成 蔬 ， 和 更 多 的 该 着 分 竺 ， 布 望 玫 助 所 
有 和 有志 于 操作 系统 、 义 尚 在 门 外 徘 徊 的 年 轻 人 少 走 些 荣 路 。 但 是 因为 性 
于 生计 ， 只 能 在 有 限 的 业余 时 间 写 作 ， 所 以 耳 到 2013 年 中 期 才 基 本 把 


整个 书 稳 写 完 。 


对 于 计算 机 而 言 ， 操 作 系 统 的 重要 性 不 襄 而 喻 ， 但 它 也 是 我 们 心中 
的 痛 ， 我 将 为 此 求 寺 一 生 。 如 来 有 生 之 年 没 能 成 功 ， 请 将 我 埋 在 后 来 者 
脚下 。 


谈 者 对 象 


对 于 如 同 笔 者 一 样 怀 撕 拘 作 系 统 梦 的 爱好 痢 ， 布 望 本 书 能 玫 他 们 顺 
利 地 迈进 操作 系统 这 书 [ 门 ， 对 于 正在 或 者 准备 学 习 拘 作 系 统 理论 的 大 学 
生 ， 本 书 将 帮助 他 们 感性 地 触 探 那些 “高 大 庙 笃 之 上 ”的 抽象 理论 ;对 于 
局 级 读者 ， 本 书 中 的 很 多 内 容 对 他 们 也 很 有 用 处 ， 比 如 动态 链接 部 分 的 


讨论 、Linux 图 形 原 理 部 分 的 讨论 等 。 
除了 以 上 的 读者 外 ， 本 书 适合 以 下 相关 从 业 人 员 阅 读 ; 


令 系统 程序 员 。 要 想 成 为 一 个 合格 的 系统 程序 员 ， 操 作 系 统 和 编 
详 链接 技术 是 必 不 可 少 的 技能 ， 本 书 对 此 有 较 深 入 的 讨论 。 


仿 腔 入 式 Linux 工 程 师 。 作 为 一 名 村 入 式 Linux 工 程 师 ， 应 该 知道 如 
何 使 用 交叉 编译 工具 链 、 配 置 编译 内 核 、 裁 肿 系 统 、 搭 建 图 形 系统 ， 其 
至 定制 桌面 环境 ， 这 些 相 关 知 识 读者 在 本 书 中 都 可 以 找到 。 


4 Linux 发 行 版 工程 师 。 作 为 制作 发 行 版 的 工程 师 ， 更 需要 彻底 训 
悉 操作 系统 的 每 个 组 件 以 及 组 件 间 的 关系 ， 本 书 可 以 满足 他 们 这 方面 的 
需求 


令 Linux 应 用 开 友 工程 是。 对 于 应 用 开 友 程序 员 ， 也 推荐 阅读 本 
书 ， 因 为 越 深 入 地 理解 操作 系统 和 编 详 链 接 原 理 ， 束 越 能 写 出 噩 效 而 倍 


党 的 程序 。 


如 何 阅 读本 书 


本 书 赎 绕 关 构建 一 个 完整 的 Linux 操 作 系 统 这 一 主线 展开 ， 除 了 第 1 
彰 外 ， 其 余 各 章 环 环 相 扣 ， 上 所 以 请 读者 严格 按照 章节 有 顺序 哆 读 。 


工 欲 善 其 事 ， 必 先 利 其 硒 。 尤 其 是 对 于 这 样 一 本 实践 丰 军 的 书 来 
说 ， 工 作 环 境 是 后 续 内 容 的 基础 。 因 此 ， 第 1 章 介 绍 了 如 何 准备 工作 环 
境 。 但 是 类 似 安 痊 Linux 友 行 版 这 样 的 内 容 ， 相 关 参 考 随 处 可 见 ， 因 此 
书 中 并 没有 浪 引 遍 幅 去 一 一 介绍 ， 而 是 仅仅 指出 其 中 需要 特别 注意 之 
处 。 


工具 链 是 后 面 进行 构建 的 基础 ， 因 此 ， 接 下 来 在 第 2 革 中 构建 了 工 
具 链 。 工 具 链 是 整个 操作 系统 中 非常 重 要 的 一 部 分 ， 理 解 工 具 链 的 工作 
原理 ， 对 理解 操作 系统 至 天 重要 ， 上 所 以 第 2 草 中 并 没有 仅仅 停留 在 构建 
的 层次 ， 还 通过 探讨 编译 链接 过 程 ， 讨 论 了 工具 链 的 组 成 以 及 各 个 组 件 
的 作用 。 


在 第 3 草 和 第 4 草 ， 我 们 从 零 开 始 ， 构 建 了 一 个 具备 用 户 字 符 界 面 的 
最 小 操作 系统 。 同 时 在 第 5 章 ， 我 们 从 更 深层 次 的 角度 探讨 了 这 一 切 是 
如 何 友 生 的 。 我 们 从 内 核 的 加 载 、 解 压 一 二 讨论 到 用 户 进程 的 加 载 ， 包 
括 用户 空 间 的 动态 链接 天 为 加 载 程序 所 做 的 努力 。 


在 第 6 草 和 第 7 草 ， 我 们 首先 构建 了 系统 的 基础 图 形 系 统 ， 然 后 在 其 


上 构建 了 加 面 环境 。 在 第 8 章 ， 我 们 深入 探讨 了 计算 机 图 形 的 基础 原 
理 ， 讨 论 了 2D 和 3D 程 序 的 泻 染 、 软 件 泻 染 、 人 硬件 泻 染 ， 我 们 也 从 操作 
系统 的 角度 审视 了 Pipeline。 


笔 着 强烈 建议 读者 在 趴 实 的 计算 机 上 安 冯 一 个 Linux 操 作 系 统 ， 让 
它 成 为 你 日 第 的 工作 机 。 然 后 将 书 中 的 ， 尤 其 是 与 实践 相关 的 所 有 命令 
实际 运行 一 届 。 之 后 再 答 试 脱离 本 书 ， 目 己 和 争取 从 头 册 构建 一 过， 相信 


所 
尔 一 定 会 在 这 个 过 程 中 受益 菲 浅 的 。 


ST 


融 误 和 文 持 


由 于 作者 水 平 有 有限 ， 加 之 编写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错误 
或 者 不 准确 的 地 方 ， 态 请 读者 提出 宝 吐 意见， 批评 指正 。 来 信 请 发 运 全 
邮箱 baisheng_wang@163.com， 笔 者 会 尽 目 己 最 大 的 努力 给 出 回复 。 
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第 1 草 ”准备 基本 坏 卉 


在 开始 Linux 操 作 系 统 的 探索 旅程 之 前 ， 我 们 首先 需要 准备 一 下 环 
境 ， 读 者 最 好 在 真实 的 计算 机 上 安 报 一 个 Linux 操 作 系统 作为 工作 机 。 
坚 无 疑问 ， 使 用 是 最 好 的 学 习 方 法 ， 如 条 日 营 工 作 系 纺 也 是 Linuxz， 那 
么 这 无 颖 有 助 于 更 好 地 理解 Linux 操 作 系 统 。 但 是 这 不 是 必须 的 ， 也 可 
以 安 汉 一 台 虚 拟 机 作为 工作 机 。 和 鉴于 现在 的 Linux 友 行 版 的 安 容 过 程 非 
音 友 好 和 目 动 化 ， 本 章 无 音 浪 费 版 面 介绍 其 安 汪 过 程 。 


态 外 ， 在 构建 操作 系统 时 ， 需 要 频 索 午 局 系统 ， 因 此 强烈 建 议 读者 
不 要 便 用 工作 机 作为 实验 机 ， 而 是 万 外 安 冯 一 合 虚 拟 机 作为 实验 机 。 本 
草 将 介绍 如 何 创建 一 个 虚拟 的 襟 机 以 及 如 何在 其 上 安 冯 Linux 操 作 系 
统 ， 并 且 介 绍 为 了 后 面 的 开 肥 和 调试 ， 在 虚拟 机 上 需要 进行 的 一 些 必 要 
的 准备 。 


因为 泉 面 环境 可 以 利用 一 个 模拟 的 小 X 服 务 右 Xephyr 来 调试 ， 所 以 
我 们 可 以 先 在 笨 主 机 的 Xephyr 上 进行 开发 和 调试 ， 然 后 再 到 构建 的 真实 
系统 上 调试 。 因 此 ， 本 章 的 最 后 一 部 分 介绍 了 如 何 使 用 Xephyr。 


1.1 安装 VirtualBox 


笔者 建议 在 真实 的 计算 机 上 安 疲 一 个 Linux 操 作 系 统 ， 这 个 系统 作 
为 工作 机 ， 主 要 进行 编译 、 构 建 和 开发 ， 男 外 辅助 提供 做 一 些 实验 及 阅 
读 源 代码 等 。 理 论 上 使 用 哪 家 的 发 行 厂 或 者 哪个 厂 本 都 可 以 ， 但 是 为 了 
避免 意外 的 贱 烦 ， 建 议 使 用 和 笔者 相同 的 环境 。 在 写作 这 本 书 的 最 后 ， 
笔者 使 用 Ubuntu12.10 将 构建 过 程 全 部 验证 了 一 裔 ， 所 以 建议 读者 也 使 
用 这 个 版 本 。 


另外 ， 我 们 当然 不 希望 使 用 工作 机 调试 我 们 构建 的 操作 系统 ， 因 为 
这 样 需 要 频繁 的 启动 。 所 以 我 们 需要 一 个 虚拟 机 ， 笔 者 使 用 的 虚拟 机 是 
VirtualBox。 在 Ubuntu12.10 下 ， 使 用 如 下 命令 安装 VirtualBox: 


root@balsheng:~# apt-get install virtualbox 


因为 我 们 是 从 零 开 始 构建 系统 ， 因 此 虚拟 机 上 还 需要 一 个 额外 的 
Linux 系 统 作为 桥梁 。 鉴 于 其 只 是 一 个 桥 染 ， 所 以 使 用 什么 版 本 没有 关 
系 ， 比 如 笔者 虚拟 机 上 使 用 的 是 Ubuntu11.10。 


1.2 创建 虚拟 计算 机 


在 安装 Linux 操 作 系 统 之 有 前， 我 们 需要 从 硬件 层面 创建 一 个 虚拟 的 
计算 机 。VirtualBox 局 动 后 ， 主 界面 如 图 1-1 所 示 。 
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图 1-1 VirtualBox 主 寞 面 


单 击 几 1-1 中 VirtualBox 主 界面 工具 条 中 的 “新 建 ? 按 钮 ， 新 建 虚 拟 机 
的 癌 导 将 启动 。 这 个 过 程 非常 简单 ， 旋 者 按照 新 建 回 导 一 路 执行 下 去 整 


好 。 访 者 只 需要 注意 在 安 痕 过程 中 要 选择 安 友 Linux 拘 作 系 统 ， 其 他 全 


部 上 默 认 即 可 。 


创建 好 虚拟 机 后 ， 在 VirtualBox 主 界面 中 将 出 现 新 建 的 虚拟 裸 机 ， 
如 图 1-2 所 示 ， 其 中 ，ubuntu11.10 就 是 笔者 新 创建 的 虚拟 机 。 


1.3” 安 疾 Linux 条 统 


本 市 我 们 将 在 1.2 节 创建 的 裸 机 上 安装 Linux 操 作 系 统 


在 图 1-2 所 示 的 工具 栏 上 单 击 “ 设 置 ” 控 钮 ， 当 然 要 确 你 在 左 侧 的 列 
表 中 人 选中 的 是 刚刚 创建 的 裸 机， 出现 如 图 1-3 所 示 的 界面 。 
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图 1-2 新 建 的 虚拟 裸 机 
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图 1-3 载 入 虚拟 光盘 映像 


在 图 1-3 中 ， 首 先 在 左 侧 的 列表 中 选择 “存储 ”"。 在 默认 情况 下 ， 我 
们 会 看 到 虚拟 机 已 经 添加 了 一 个 空 的 虚拟 光驱。 如 条 VirtualBox 没 有 目 
动 添加 ， 读 者 手动 添加 即 可 。 至 于 是 SATA 接 口 还 是 IDE 接 口 ， 是 没有 
关系 的 ， 毕 竟 是 虚拟 的 。 然 后 ， 选 中 虚拟 光驱 ， 即 图 1-3 所 示 的 IDE 控 制 
器 下 的 “没有 盘 片 ”然后 单 击 “ 分 配 光驱 ”文本 框 旁 的 带 有 光盘 图 片 的 按 


钮 。VirtualBox 将 打开 一 个 文件 选择 对 话 框 ， 读 者 找到 Linux 操 作 系 统 的 
光盘 有 映 像 即 可 。 这 个 过 程 与 我 们 将 物理 光盘 放 入 光 张 起 理 完全 相同 。 


在 将 光盘 上 映像 放 入 虚拟 光驱 后 ， 在 图 1-2 所 示 的 界面 中 单 击 工具 栏 
上 的 “局 动 ” 控 钮 ， 局 动 Linux 系 统 的 安 沪 过 程 。 鉴 于 现在 的 友 行 版 的 安 
装 过 程 非常 友好 且 人 全程 自 动 化 ， 我 们 就 不 再 浪费 太 多 版 面 逐 一 介绍 。 其 
中 需要 读者 重点 关注 的 是 一 定 要 从 硬盘 中 为 我 们 即将 构建 的 系统 划分 出 
一 块 分 区 ， 基 本 上 2GB 束 中 够 了， 并 将 其 格式 化 为 EXT4 类 型 ， 当 然后 
面 这 一 步 也 可 以 在 系统 安装 完成 后 进行 。 


在 安装 过 程 中 ， 在 选择 安装 类 型 (installation type) 这 一 步 ， 务 必 
要 选择 "Something else"， 如 果 选 择 了 使 用 中 文人 简体 安 狼 ， 这 里 显示 的 可 
能 是 “其 他 选项 ”， 总 之 ， 要 选择 这 个 允许 我 们 为 硬盘 分 区 的 选项 ， 如 图 


-4 所 示 。 
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早 击 图 1-4 中 的 继续 (Continue〉 按 钮 ， 将 出 现 便 盘 分 区 的 界面 。 基 
本 上 划分 两 个 分 区 就 可 以 了 ， 一 个 用 来 安装 操作 系统 ， 男 外 一 个 作 
为 “实验 田 ?”， 留 给 我 们 构建 的 操作 系统 用 于 实验 。 划 分 好 的 分 区 大 致 如 


图 1-5 所 示 。 
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图 1-5 硬盘 分 区 


为 外 ， 还 有 一 处 需要 提醒 读者 ， 在 安 寂 的 后 期 ， 安 疙 程序 可 能 会 通 
过 网 络 更 新 系统 ， 因 为 这 个 虚拟 机 上 的 系统 只 是 一 个 桥梁 ,没有 太 多 工 
作 页 做 ， 一 个 基本 的 系统 束 足 够 了 ， 所 以 完全 没有 必要 浪费 时 间 等 行 其 
下 载 更 新 ， 百 搂 略 过 〈skip) 即 可 。 


1.4 使 用 root 用 户 


很 多 发 行 版 由 于 安全 原因 ， 默 认 使 用 普通 用 户 登 录 ， 因 此 当 要 执行 
一 些 需要 特权 的 操作 时 ， 往 往 需 要 通过 "sudo" 命 令 使 自己 临时 成 为 root 
用 己 。 但 是 这 对 于 我 们 希望 研究 操作 系统 的 人 来 襄 ， 当 然 有 操 不 方便 
了 ， 上 所 以 ， 笔 者 建议 使 用 root 用 户 登 录 。 

既然 打算 使 用 root 用 户 ， 当 然 要 知道 [oot 用户 的 密码 了 ， 但 是 
Ubuntu 默 认 的 root 用 户 密 码 是 什么 呢 ? 不 必 理 会 这 个 问题 ， 直 接 改 成 我 
们 目 己 的 即 可 。 以 普通 用 户 登 录 虚 拟 机 后 ， 局 动 一 个 终 新 ， 执 行 如 下 命 
令 修 改 root 用 户 密码 : 


Sudo passwd root 


然后 就 可 以 使 用 root 用 户 了 ， 或 者 使 用 命令 "su" 切 换 有 用户， 或 者 登 
孙 时 使 用 root 用 户 。 


1.5 局 用 目 动 登录 


在 安 荫 步 双 中， 在 添加 用 户 这 一 步 的 界面 中 ， 有 一 个 可 选项 ， 
即 “ 上 自动 登录 ”(log in automatically) ， 这 个 选项 默认 是 没有 选中 的 。 如 
果 没 有 选中 ， 那 么 在 局 动 时 ， 每 次 登录 部 圾 要 输入 登录 密码 ， 非 常 克 
烦 。 所 以 ， 建 议 读者 开局 自动 登录 。 

如 果 和 安装 时 没有 选中 ， 也 不 必 重 刹 安 狂 。 读 者 可 以 修改 登录 宵 理 此 
lightdm 的 配置 文件 lightdm.conf， 在 其 中 添加 下 面 一 行 : 


/etc/lightdm/lightqdm.conf: 
autologin-user=root 


如 果 语 者 实在 不 愿意 臧 击 键 盘 输 入 这 几 个 字母 ， 那 么 可 以 在 系统 设 
置 中 ， 打 开 “ 用 户 账 户 ”(User Accounts) ， 将 普通 账户 的 “ 目 动 登 
录 ”(Automatic Login〉 开 局， 然后 在 配置 文件 lightdm.conf 中 将 多 出 类 
/etc/lightdm/lightdm,conf: 


autologin-user=baisheng 


读者 将 其 中 的 普通 用 户 的 登录 名 改 为 root 即 可 。 


如 此 ， 即 可 免除 每 次 登录 时 输入 密码 之 兰 ， 也 无 需 手 动 切换 用 户 ， 
而 是 目 动 以 root 丑 份 登录 。 


1.6” 挂 载 实 验 分 区 


假设 在 虚拟 机 上 为 构建 的 操作 系统 划分 的 分 区 是 /dev/sda2， 那 么 我 
们 使 用 如 下 命令 将 其 挂 载 在 根 目 录 的 vita 下 : 


mkdir /vita 
mount /dev/sda2 /vita 


为 了 避免 每 次 开机 后 部 需要 手工 挂 载 ， 我 们 将 其 写 入 fstab 文 件 中 ， 
开机 后 由 操作 系统 目 动 挂 载 : 


/etc/fstab: 


/dev/sda2 /vita ext4 defaults 0 0 


1.7” 安 到 ssh 服 务 器 


我 们 使 用 ssh 服 务 从 宿主 系统 回 虚 拟 机 复制 构建 的 实验 系统 。 
此 ， 在 虚拟 机 系统 上 需要 安装 ssh 服 务 妖 。ssh 服 务 器 需要 通过 网 络 从 源 
服务 器 下 载 。 以 笔者 使 用 的 VirtualBox 版 本 为 例 ， 默 认 其 为 虚拟 机 开启 
了 了 网络， 并 且 使 用 的 是 NAT 醒 式 ， 要 访问 互联 网 ， 无 需 设 置 了 了 、 路 由 
等 ， 但 是 要 自己 设置 DNS。 或 者 直接 可 以 进入 设置 ， 将 虚拟 机 的 网 络 改 
为 桥接 模式 ， 这 样 在 DHCP 的 网 络 环境 中 ， 无 须 做 任何 修改 即 可 访问 互 
联网 。 


确保 虚拟 机 可 以 访问 互联 网 后 ， 我 们 束 可 以 安装 ssh 服 务 器 了 。 当 
然 首 次 从 源 安 闭 软 件 时 ， 需 要 更 新 着 。 更 新 源 和 安 闭 ssh 服 务 的 命令 如 
二 


apt-get update 
apt-get install openssh-server 


1.8 更 改 网 络 醒 陈 


在 VirtualBox 的 各 种 网 络 模 式 中 ， 人 允许 条 主机 和 虚拟 机 通信 的 第 用 
网 络 栋 式 是 酉 接 模 式 和 Host-Only 模 式 。 但 古 桥接 模式 有 两 个 问题 ， 一 
个 是 循 主 机 一 定 要 时 刻 连 网 ， 因 为 在 桥接 模式 下 ， 虚 拟 机 在 局 域 网 内 家 
模拟 为 与 特 主 机 同等 地 位 的 一 合 主机 ， 所 以 如 末 特 主机 设 有 接 入 局 域 
网 ， 何 谈 虚 拟 机 和 循 主机 通信 ? 虽然 现在 网 络 很 普及 ， 但 是 持 葛 会 仓 在 
未 接 入 网 络 的 情况 。 万 外 一 个 问题 是 ， 我 们 也 不 想 让 开 痢 ssh 服 务 耸 的 
虚拟 机 其 露 在 互联 网 上 。 所 以 ， 笔 者 建议 虚拟 机 的 网 络 使 用 Host-Only 
模式 ， 设 阜 方法 如 图 1-6 所 示 。 
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在 图 1-6 中 ， 
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贞 正 三 风 列表 太 达 任 设 画 夫 曙 ， 关 发 业 和 若 到 股 盏 砚 上 可 浆 隆 喝 多 人 施 后 。 


图 1-6 设置 虚拟 机 网 络 模 式 


自 完 选中 左 侧 列表 中 的 “网 络 ”， 然 后 将 “过 接 方式 ”更 改 


为 "Host-Only" 模 式 。 


确定 后 ， 宿 主 系统 将 多 出 一 个 网 络 接口 ， 用 于 与 虚拟 机 通信 ， 默 认 
一 般 是 vboxnet0， 其 地 址 被 设置 为 192.168.56.1， 虚 拟 机 的 地 址 被 设置 为 
192.168.56.101。 当然 读 者 可 以 日 己 修 改 ， 但 是 这 没有 任何 必要 。 


然后 在 虚拟 机 上 我 们 惑 可 以 使 用 如 下 命令 局 动 ssh 服 务 碳 了 了 : 


/usr/sbin/sshd 


在 宿主 系统 上 ， 我 们 可 以 远程 登录 到 虚拟 机 ， 命 令 如 下 : 


ssh 192.168.56 .101 


也 可 以 将 循 主 系统 的 文件 〈 比 如 a) 复制 到 虚拟 机 ， 命 令 如 下 : 


scp a 192,168.56.101:/root/ 


1.9 ”安装 增强 模式 


当 没 有 安 普 增 强 柑 式 时 ， 虚 拟 机 只 能 使 用 固定 的 分 辩 卒 ， 那 么 可 能 
人 不 文 持 全 屏 这 样 的 功能 。 如 来 需要 全 屏 功 能 ， 可 以 选择 安 站 VirtualBox 
的 增强 功能 来 解决 这 一 问题 。 


在 VirtualBox 的 采 早 中 ， 自 完 选择 “设备 ” 采 早 ; 然后 在 下 拉 沫 单 中 


选择 “安装 增强 功能 ”。 


增强 功能 也 在 一 个 光盘 上 映像 中 ， 所 以 如 果 是 首次 安装 增强 功能 ， 
VirtualBox 将 首先 从 网 络 上 下 载 这 个 光盘 映像 到 宿主 机 。 下 载 完成 后 ， 
这 个 光盘 映像 一 般 会 被 自动 装 入 到 虚拟 光驱 ， 如 果 没 有 自动 挂 载 ， 需 要 
读者 手动 将 其 放 入 到 虚拟 光驱 ， 然 后 ， 运 行 其 中 
的 "VBoxLinuxAddtions.run" 即 可 。 当 然 如 末 和 是 为 Windows 系 纺 安 痛 增 绰 
功能 ， 需 要 运行 相应 的 Windows 版 本 。 


1.10 使 用 Xephyr 


在 条 主 系统 上 使 用 Xephyr 调 试 果 面 环境 ， 要 更 方 便 一 些 。 所 以 这 
节 ， 我 们 介绍 如 何在 宿主 系统 上 调试 保 面 环境 。 如 果 尚 未 安装 Xephyr， 
则 首先 通过 如 下 方法 安装 Xephyr: 


root@balsheng:~# apt-get install xserver-xephyr 
然后 使 用 如 下 命令 司 动 Xephyr: 

root@balisheng:~# Xephyr -ac -screen 800x480 :1 .0 
在 男 外 的 终 病 中 ， 将 Display 定 问 到 Xephyr: 


root@Dbalsheng:~# export DISPLAY=:1.0 


如 些 ， 在 这 个 终 病 中 ， 所 有 需要 X 服 务 右 渔 染 程序 都 将 使 用 
Xephyr。 当 然 ， 为 了 方便 ， 我 们 可 以 开局 任意 个 终 病 ， 并 将 它们 的 
Display 都 定 问 到 Xephyr。 


比如 我 们 可 以 在 一 个 终 疾 中 运行 窗口 管理 大 winman: 


root@balilsheng:~# export DISPLAY=:1.0 
root@baisheng:/vita/build/winman/src# ./winman 


在 万 外 一 个 终 疹 中 运行 任务 条 : 


root@balsheng:~# export DISPLRAY= :1.0 
root@baisheng:/vita/build/taskbar/src#t ./taskbar 


而 在 第 三 个 终 问 中 运行 Desktop 程 友 : 


root@balsheng:~# export DISPLAY=:1.0 
root@baisheng:/vita/build/desktop/src# ./desktop 


图 1-7 就 是 在 笔者 的 宿主 机 上 运行 winman 以 及 一 个 gedit 后 的 
Xephyr。 


全 人 合 Xephyr on :1.0.0 (ctrl+shift grabs mouse and keyboard) 本 
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图 1-7 Xephyt 


第 2 章 ”工具 链 


软件 的 编 详 过 程 中 由 一 系列 的 步 又 完成 ， 每 一 个 步 又 都 有 一 个 对 应 
的 工具 。 这 些 工 具 崇 罕 地 工作 在 一 起 ， 前 一 个 工具 的 输出 是 后 一 个 工具 
的 输入 ， 像 一 根 链条 一 样 ， 因 此 ， 人 们 也 把 这 些 工具 的 组 合 形 象 地 称 为 
工具 链 。 


在 本 书 中 ， 我 们 将 从 源码 开始 ， 逐 步 构建 一 个 基本 的 Linux 操 作 系 
统 。 显 然 ， 工 上 其 链 是 我 们 前 先 需要 考虑 的 ， 因 为 工具 链 是 编 详 包 括 内 核 
在 内 的 操作 系统 各 个 组 件 的 基础 。 正 所 谓 “ 物 有 本 末 ， 事 有 终 始 ， 知 所 
先后 ， 则 近 道 人 矣 。” 因 此 ， 在 本 章 中 ， 我 们 并 没有 匆忙 切入 正题 一 一 构 
建 工具 链 ， 而 是 痛 完 结合 其 体 的 例子 ， 价 助 答 主 系统 中 的 工具 ， 尺 可 能 
地 将 工具 链 的 工作 过 程 更 具体 地 展示 给 读者 。 希 望 通过 这 个 探讨 过 程 ， 
读者 可 以 明日 工具 链 包 含 哪些 组 件 以 及 这 些 组 件 的 基本 工作 原理 。 然 后 
基于 GNU 工 具 链 的 源码 ， 手 工 从 源码 构建 一 套 工 具 链 。 后 面 ， 我 们 将 会 
使 用 这 一 章 构 建 的 工具 链 编译 内 核 以 及 操作 系统 的 各 个 组 件 。 





2.1 ”编译 过 程 


在 Linux 系 统 上 ， 通 常 ， 只 需 使 用 gcc 束 可 以 完成 整个 编译 过 程 。 但 
不 要 被 gcc 的 名 字 误 导 ， 事 实 上 ，gcc 并 不 是 一 个 编译 器 ， 而 是 一 个 驱动 
程序 (driver program) 。 在 整个 编译 过 程 中 ，gcc 就 像 一 个 导演 一 样 ， 
编译 过 程 中 的 每 一 个 环节 由 具体 的 组 件 人 负责， 如 编译 过 程 由 cc1 负 责 、 
汇编 过 程 由 as 负责 、 链 接 过 程 由 ld 负责。 


我 们 可 以 通过 传递 参数 "-v" 给 gcc 来 观察 一 个 完整 的 编译 过 程 中 包含 
的 步骤 ， 下 面 是 一 个 典型 的 编译 过 程 中 gcc 的 输出 信息 ， 为 了 更 清楚 地 
看 到 编译 过 程 中 的 主要 步骤 ， 对 输出 信息 进行 了 适当 删 减 。 


root@baisheng:~/demo# gcc -Vv main.c 


/usr/lipbp/gcc/i686-1inux-gnu/4.7/ccl -quiet -vv -imultiarch 
1386-1Inux-gnu main.c -quliet -dumpbase main.c -mtune=generic 
-march=1686 -auxbase main -verslion -fstack-protector -o 
tmp/cecYpBInzt.s 


as -V --32 -oO /tmp/ccj5s4pkM.o /tmp/ccYBInzt.s 


/usr/lib/gcc/i686-linux-gnu/4.7/collect2 --sysroot=/ --build-id 
--no-add-needed --as-needed --eh-frame-hdr -m elf 1386 
--hash-style=gnu -dynamic-linker /lib/ld-linux.so.2 -z relro 
usr/lib/gcc/i686-linux-gnu/4.7/../../../i386-linux-gnu/crtl.o 
/UBr/iib/gqeoc/i68066-L.inUux-Gnu/t 7/ cs /ort cs /1386~"1inux-GnNnU/ Crti © 
/usr/lib/gcc/i686-linux-gnu/4.7/crtbegin.o 
-L/usr/lib/gcc/i686-linux-gnu/4.7 
-L/usr/lib/gcc/i686-linux-gnu/4.7/../../../i386-linux-gnu 
“人 二 二 二 全 人 SECRET 
-L/l1ib/i386-linux-gnu -L/lib/../lib -L/usr/lib/i386-linux-gnu 
-L/usr/lib/../lib -L/usr/lib/gcc/i686-linux-gnu/4.7/../../.. 
/tmp/ccj54pkM.o -lgcc --as-needed -lgcc s --no-as-needed -lc -lgcc 
-~"aS-needed -lgcc 8 --no-as-needed 
/usr/lib/gcc/i686-linux-gnu/4.7/crtend.o 

/USE/l1iD/dCe/ L661- 7/ /a (iG~、LLnUR Gn Grtilsd 


根据 gcc 的 输出 可 见 ， 对 于 一 个 C 程 序 来 说 ， 从 源 代码 构建 出 可 执行 
程序 经 过 了 三 个 阶段 


(1) 编译 


gcc 调 用 编译 万 cc1 进 行 编 诺 ， 产 生 的 汇编 代码 保存 在 目录 /tmp 下 的 
文件 ccYBInzt.s 中 。 


(2) 汇编 


gcc 调 用 汇编 硕 as， 汇 编 编 详 过 程 产生 汇编 文件 cca2nBio.s， 产 生 的 
目标 文件 保存 在 目录 /tmp 下 的 文件 ccj54pkM.o 中 。 


(3) 链接 


我 们 看 到 ，gcc 并 没有 如 我 们 想象 的 那样 卫 接 调用 ld 进行 链接 ， 而 丰 


调用 collect2 进 行 链 接 。 实 际 上 ，collect2 只 是 一 个 辅助 程序 ， 最 终 它 仍 
将 调用 链接 需 1d 完 成 真正 的 链接 过 程 。 举 个 例 于 ， 对 于 C++ 程序 来 说 ， 

在 执行 main 函 数 前 ， 全 局 静态 对 象 必须 构造 完成 。 也 束 是 说 ， 在 main 之 
前 程序 需要 进行 一 些 必 要 的 初始 化 ，gcc 就 是 使 用 collect2 安 排 初 始 化 过 
程 中 如 何 调用 各 个 初始 化 函数 的 。 根 据 链 接 过 程 可 见 ， 除 了 main.c 对 应 
的 目标 文件 ccaj54pkM.o 外 ，1d 也 链接 了 libc、libgcc 等 库 ， 以 及 所 谓 的 包 
含 局 动 代 码 (start code) 的 局 动 文 件 (start/startup file) ， 包 括 crt1.0、 


crti.0、 crtbegin.0、 crtend.o0 和 crtn.o。 


事实 上 ， 对 于 C 程 序 来 说 ， 编 详 过 程 也 可 以 拆 分 为 两 个 阶段 ， 预 编 
译 〈 或 称 为 编 详 预 处 理 ) 和 编 详 。 所 以 ， 软 件 构 建 过 程 通 党 分 四 个 阶 
段 ， 预 编译 、 编 译 、 汇 编 以 及 链接 ， 如 图 2-1 所 示 。 


SOUFCe code file 





Preprocessor 


preprocessed code file 


Lompller 
CR 


Linker “于 Shared/Static Libs 





Other Object files 


start/end files 


Executble (crti.o,crtn.o, ...) 


图 2-1 C 程 序 的 构建 过 程 





在 接 下 来 讨论 编 详 过 程 的 革 市 中 ， 如 无 特殊 说 明 ， 必 将 以 下 面 的 程 
序 为 例 。 


tool,c: 
int fool = 10: 


VO :TOOL EUne 


t 


1 了 七 ret 三 tool: 


foo2,.cC: 
int too2 = 二 日， 


veld .fo02 Tunce lint Rl) 


| 
| 


hello,.c: 


nt ret = foo2: 


#include <stdio.h> 

extern int foo2; 

int main(int argc, char *argv|l]) 
ton2 = 9 


foo2 func (so0).; 
return 0: 


2.1.1 ”了 预 编 详 


在 预 编 详 阶 段 ， 预 编译 副将 处 理 源 代 人 码 中 有 的 预 编 详 指令。 一 般 而 


言 ，C 语 言 中 的 预 编译 指令 以 “ 扰 开 头 ， 第 用 的 预 编译 指令 包括 文件 包 合 
命令 "#include"、 宏 定义 "#define"， 以 及 条 件 编译 命 


令 " 大 f"、"#else"、"#endif" 等 。 


在 工具 链 中 ， 一 般 都 提供 单独 的 预 编 译 北 ， 比 如 GCC 中 提供 的 预 纺 
译 器 为 cpp。 但 是 ， 因 为 预 编译 也 可 以 看 作 编 译 过 程 的 第 一 这“(first 
pass) ， 是 为 编译 做 的 一 些 准备 工作 ， 上 所 以 通 第 编译 器 中 也 包含 了 预 纺 
详 的 功能 。 如 在 前 面 的 编译 过 程 中 ， 我 们 看 到 gcc 并 没有 单独 调用 cpp， 
而 是 直接 调用 ccl 进 行 编 详 ， 原 因 束 在 于 此 。 


以 下 面 的 程序 为 例 ， 该 程序 使 用 了 典型 的 预 编 详 指 令 ， 我 们 通过 观 
聚 这 个 程序 的 预 处 理 的 结果 ， 来 且 观 体会 预 编 详 过 程 。 


foo.,h: 


i#ifndef FOO H 
#define FOO H 


#define PI 3.1415926 
i#define AREA 


tusk Eo Pret 4 


i 


#endif 


nt a; 


hello.c: 
#include "foo.h" 
int maint(lint argc, char *argv|]) 


| 


nt result: 
1nt TT 三 85: 


i#iftdet AREA 


result = PI *Ir* 工 ， 
#else 

result = PI * 开光 2， 
#endit 


| 


我 们 可 以 使 用 选项 -上 告诉 编译 占 仅 作 预 处 理 ， 不 进行 编译 、 汇 编 和 


链接 ， 上 有 具体 命令 如 下 : 
cc -E hello.c -oo hello.1 
预 编 译 后 的 结果 保存 在 文件 hello.i 中 ， 其 内 容 如 下 : 


struct foo struct 1 


nt a: 
int main(lint argc, char *arogvl],) 
nt result: 
nt IT 三 号: 
result = 3.1]14]5926 * rr 大 工 ; 


根据 预 编 详 后 的 结果 可 见 ， 上 典型 的 预 编译 指令 按照 如 下 方式 进行 处 
1 


(1) 文件 包含 


文件 包含 命令 指示 预 编 强 将 一 个 源 文 件 的 内 容 全 部 复制 到 当前 源 文 
件 中 。 在 上 面 的 代码 中 ，hello.c 使 用 命令 "#incude" 指 示 预 编 右 包含 文件 
foo.h。 而 在 预 处 理 的 输出 文件 hello.i 中 ， 结 构 体 foo_struct 的 定义 确实 已 


经 被 复制 到 了 文件 hello.i 中 ， 也 就 是 说 ， 文 件 foo.h 中 的 内 容 补 包含 到 了 
文件 hello.i 中 。 


(DE 


宏 可 以 提高 程序 的 通用 性 和 易 读 性 ， 减 少 不 一 致 性 和 输入 错误 ， 便 
于 维护 。 在 预 处 理 过 程 中 ， 预 编 器 将 宏 名 蔡 换 为 具体 的 值 。 比 如 ， 在 
hello.c 的 main 函 数 中 ， 经 过 预 处 理 后 ， 宏 名 PI 已 经 被 蔡 换 为 具体 的 值 
3.1415926。 


(3) 条 件 编译 


在 大 多 数 情况 下 ， 源 程序 中 所 有 的 语句 都 参加 编译 ， 但 有 的 时 候 用 
户 希 望 按照 一 定 的 条 件 去 编译 源 程序 的 不 同 部 分 ， 这 时 可 以 使 用 条 件 编 
译 。 比 如 在 函数 main 中 ， 当 定义 了 变量 AREA 时 ， 编 详 带 将 编 
译 "上 fdef" 块 的 代码 ， 否 则 编译 "#else" 块 的 代码 。 在 上 面 代码 中 ， 因 为 在 
foo.h 中 定义 了 变量 AREA， 所 以 ， 在 经 过 预 处 理 的 文件 hello.i 中 ， 条 件 
编译 指令 中 的 "#else" 块 的 代码 从 源 代码 中 被 删除 了 ， 只 你 留 了 "##fdef" 块 
HD 


2.1.2 ”编译 


编译 程序 对 预 处 理 过 的 结果 进行 词法 分 析 、 语 法 分 析 、 语 义 分 析 ， 
然后 生成 中 间 代码 ， 并 对 中 间 代 码 进行 优化 ， 目 标 是 使 最 终生 成 的 可 执 
行 代码 执行 时 间 更 短 、 占 用 的 空间 更 小 ， 最 后 生成 相应 的 汇编 代码 。 


以 foo2.c 为 例 ， 我 们 可 以 使 用 如 下 命令 指定 编 详 过 程 只 进行 编 详 ， 
不 进行 汇编 和 链接。 


root@baisheng:~/demo# gcc -9 foo2.c 


编 详 后 产生 的 汇编 文件 为 fo02.s， 其 内 容 如 下 : 


.file Tors 
.可 上 bl foo2 

.data 

.allgn 4 

.type foo2, @object 
.S12Ze fonz,. 4 


foono2: 


. ong 20 


. Cext 
lobl too2 func 
:type foo2 func, @function 


foo2 func:; 
:LEBO: 
‘Citl startproc 
pushl Sebp 
eH def CEa BETISet 8 
GH OFfBet 5 “< 


mowvl Sesp, Sebp 

‘Ch def cfa register 5 
subl $16, 过 已 SP 

IO foo2, eax 
movl Seax, -4 (Sebp) 
leave 


CH :eStore 5 
.Ch def cfa 4, 4 
ret 

‘EH. endprae 


:LFEQ: 
.Sl1Ze foo2 func, .=fooz func 
:ident "GCC: (Ubuntu/Linaro 4.7.2-2UuUbUuntul) 4.7.2" 
. SECt1ion note.GNU-stack,'"",@progbits 


在 文件 foo2.c 中 ， 除 定义 了 一 个 全 局 变量 foo2 外 ， 仪 定义 了 一 个 函 
数 foo2_func， 而 该 遇 数 体 中 也 只 有 区 区 一 行 代 人 码 ， 但 为 什么 产生 的 和 汇编 
代码 如 此 之 长 ? 事实 上 ， 和 仔细 观 纶 可 以 友 现 ， 文 件 foo2.s 中 相当 一 部 分 
旦 汇编 右 的 伪 指 令 。 伪 指令 是 不 参与 CPU 运行 的 ， 只 指导 编 详 链 接 过 
程 。 比 如 ， 代 码 中 以 ".cfi" 开 类 的 伪 指 令 是 辅助 汇编 占 创 建 栈 帧 (stack 


frame ) 信息 的 。 


在 终 靖 上 调试 程序 的 程序 员 一 般 都 会 有 这 样 的 经 历 : 茶 个 程序 出 现 
Segment Fault 了， 然后 终 病 中 会 输出 回调 〈backtrace) 信息 。 或 者 ， 我 


们 在 调试 程序 时 ， 也 经 党 需要 回 蛮 ， 奏 找 一 些 变量 或 租 看 图 数 调用 信 
忌 。 这 个 过 程 ， 就 是 所 谓 的 栈 的 回 卷 (unwind stack) 。 事 实 上， 在 每 


个 函数 调用 过 程 中 ， 都 会 形成 一 个 栈 帆 ， 以 main 函 数 调 用 foo2_func 为 
例 ， 形 成 的 栈 帆 如 图 2-2 所 示 。 


high address 


drows 
Iocal variables 
stack frame 


for main 


args for foo2 func 
return address 
for foo2 func 





-ebp (frame/base pointer) 
stack frame 、 
for foo2 func local variables 


low address 


eSDp (stack pointer) 


图 2-2 


骂 数 调用 中 的 栈 帧 


frame pointer 和 base pointer 均 指 癌 栈 柜 的 底部 ， 只 是 叫 法 不 同 ， 在 
IA32 染 构 中 ， 通 津 使 用 寄存 占 ebp 保 存 这 个 位 置 。 因 为 main 并 不 是 程序 
中 第 一 个 运行 的 函数 ， 所 以 main 也 是 一 个 被 调 函 数 ， 其 也 有 栈 帧 。 事 实 
上 ， 即 使 程序 中 第 一 个 被 调用 的 函数 _start 该 函数 实现 在 启动 代码 


中 ) ， 也 会 自己 模拟 一 个 栈 帧 。 


理论 上 ， 调 试 融 或 卉 帅 处 理 程 序 完全 可 以 根据 frame pointer 来 授 历 
调用 过 程 中 各 个 函数 的 栈 帜 ， 但 是 因 为 gcc 的 代码 优化 ， 可 能 导致 调试 
名 或 异 沼 处 理 很 难 其 至 不 能 正常 回 部 栈 帧 ， 所 以 这 些 伪 指 令 的 目的 丈 古 
辅助 编 详 过 程 创建 栈 帧 信息 ， 并 将 它们 你 存在 目标 文件 的 
段 ".eh_frame" 中 ， 这 样 丈 个 会 被 编 详 带 优 化 影响 了 。 


去 掉 这 些 伪 指 令 后 ， 函 数 foo2_func 中 CPU 真 正 执行 的 代码 如 下 : 


foo2 tunc: 


1 pushl ebp 

2 movl esSp, Sebp 

3 suDbl 516, Sesp 

4 moOVvl foo2, eax 

5 movl eax, -4 (ebp) 
6 leave 

了 ret 


在 汇编 语言 中 ， 在 函数 的 开头 和 结尾 处 分 别 会 插入 一 小 段 代 码 ， 分 
别称 为 Prologue 和 Epilogue， 如 foo2_func 中 的 第 1]、2、3 行 代码 就 是 


Prologue， 第 6、7 行 代码 束 是 Epilogue。 


Prologue 保 存 主 调 函 数 的 frame pointer， 这 是 为 了 在 子 函数 调用 结束 
后 ， 恢 复 主 调 函 数 的 栈 帧 。 同 时 为 子 函 数 准备 栈 师 。 其 主要 操作 包括 : 


全 保存 主 调 函 数 的 frame pointer， 如 第 1 行 代 码 所 示 ， 束 是 将 保存 在 
寄存 上 右 ebp 中 的 frame pointer 压 栈 。 在 退出 子孙 数 时 可 以 从 栈 中 恢复 主 调 


国 数 的 frame pointer。 


仿 将 esp 赋 信 给 ebp， 即 将 子 函 数 的 frame pointer 指 回 主 调 国 数 的 栈 
项 ， 如 第 2 行 代码 所 示 。 换 句 话 说 ， 这 行 代码 的 意义 束 是 记录 了 子 函 数 
的 栈 由 的确 部 ， 从 这 里 束 开 始 了 子孙 数 的 栈 帧 。 


争 修改 栈 项 指针 esp， 为 子 函 数 的 本 地 变量 分 配 栈 空间 ， 如 第 3 行 代 
介 。 注 意 虽 然 这 里 的 foo2_func 中 只 有 一 个 局 部 变量 ret， 占 据 4 字 节 ， 但 
是 还 是 预 留 了 16 字 市 的 栈 空间 ， 这 根据 的 是 I[A32 的 ABI (Application 


Binary Interface 〉 的 16 字 市 的 对 齐 要 求 。 


Epilogue 功 能 与 Prologue 恰 恰 相 反 ， 如 果 说 Prologue 相 当 于 构造 也 
数 ， 那 么 Epilogue 束 相当 于 析 构 函数 。 其 主要 操作 包括 : 


令 将 栈 指 针 esp 指 癌 当 前 子 函 数 的 栈 帧 的 frame pointer， 也 就 是 说 ， 
指 回 当 前 栈 桢 的 栈 底 ， 而 在 这 个 位 置 ， 恰 恰 是 Prologue 保 存 的 主 调 函 数 
的 frame pointer。 然 后 ， 通 过 指令 pop 将 主 调 函 数 的 frame pointer 弹 出 到 
ebp 中 ， 如 此 ， 一 方面 释放 了 被 调 冰 数 foo2_func 的 栈 帆 ， 同 时 也 回 到 了 
主 调 函 数 main 的 栈 帧 。IA32 提 供 了 指令 leave 来 完成 这 个 功能 ， 即 第 6 行 
代码， 这 个 指令 相当 于 : 


movl ebp, Sesp 
DOp $ebp 


仿 将 调用 子 函数 时 call 指 令 压 栈 的 返回 地 址 从 栈 顶 pop 到 EIP 中 ， 并 
跳 转 到 EIP 处 继续 执行 。 如 此 ，CPU 就 返回 到 主 调 函 数 继续 执 行 。IA32 


提供 了 指令 ret 来 完成 这 个 功能 ， 即 第 7 行 代码 。 


除了 Prologue 和 Epilogue，foo2_func 的 核心 代码 就 剩 下 第 4 行 和 第 5 
行 两 行 了 。 这 两 行 代码 对 应 的 就 是 C 语 言 中 的 赋值 语句 "int ret=foo2"。 
自 完 ， 即 第 4 行 代码 ，CPU 从 数据 段 中 读 取 全 局 变量 foo2 的 值 到 寄存 如 
EAX 中 。 然 后 ， 即 第 5 行 代码 ， 将 eax 中 的 内 容 ， 即 foo2 的 值 ， 复 制 到 栈 
中 的 局 部 变量 ret 的 位 置 。 代 码 中 根据 局 部 变量 相对 于 栈 的 frame 
pointer〈 在 ebp 中 保存 〉 的 偏 移 来 访问 局 部 变量 ， 如 变量 ret 位 于 相对 于 
栈 底 偏 移 为 -4 的 内 存 处 。 


2.1.3 汇编 


汇编 右 将 汇编 代码 翻 详 为 机 融 指 令 ， 每 一 条 汇编 语句 几乎 都 对 应 一 
条 机 缆 指 令 ， 所 以 汇编 筑 的 汇编 过 程 相 对 于 编 详 化 来 讲 比较 徐 单 ， 它 没 
有 复杂 的 语法 ， 也 没有 语义 ， 也 不 珊 要 做 指令 优化 ， 只 十 根据 汇编 指令 
和 机 需 指 令 的 对 昭雪 进行 翻 诺 残 可 以 了 。 当 然 ， 汇 编 益 的 工作 不 仅 包括 
翻 详 汇 编 指 令 到 机 占 指 令 ， 除 了 生成 机 可 人 码 外 ， 汇 编 右 还 要 在 目标 文件 
中 创建 辅助 链接 时 需要 的 信息 ， 包 括 符号 表 、 重 定位 表 等 。 


1. 目 标 文 件 


汇编 过 程 的 产物 是 目标 文件 ， 同 前 面 的 预 编 译 和 编译 阶段 产生 的 文 
本 文件 不 同 ， 目 标 文 件 的 格式 更 复杂 ， 其 中 包括 链接 需要 的 信息 ， 所 以 
在 理解 汇编 过 程 前 ， 我 们 需要 了 解 一 下 目标 文件 的 格式 。Linux 下 的 二 
进 制 文件 包括 可 执行 文件 、 静 态 库 和 动态 库 等 ， 均 采用 ELF 格 式 存储 ， 
日 标 文件 的 格式 也 不 例外 ， 也 采用 ELF 格 式 存 储 。 


对 于 32 位 的 ELF 文 件 来 说 ， 其 最 前 部 是 文件 尖 部 信息 ， 拍 述 了 整个 
文件 的 基本 属性 ， 除 了 包括 该 文件 运行 在 什么 操作 系统 中 、 运 行 在 什么 
便 件 体系 结构 上 、 程 序 入 口 地 址 是 什么 等 基本 信息 外 ， 最 草 要 的 是 记录 
了 两 个 表格 的 相关 信息 ， 如 表格 所 在 的 位 置 、 其 中 包括 的 条 目 数 每 。 这 
两 个 表格 一 个 是 Section Header Table， 主 要 是 供 编 译 时 链接 使 用 的 ， 表 


格 中 定义 了 各 个 段 的 位 置 、 长 度 、 属 性 等 信息 ; 另外 一 个 是 Program 
Header Table， 主 要 是 供 内 核 和 动态 加 载 句 从 破 盘 加 载 ELE 文 件 到 内 存 时 
使 用 的 。 对 于 目标 文件 ， 由 于 其 只 是 编译 过 程 的 一 个 中 间 产 物 ， 不 涉 


疾 载 运行 ， 因 此 ， 在 目标 文件 中 不 会 创建 Program Header Table。 


在 后 续 内 容 中 ， 我 们 将 Segment 和 Section 都 翻译 为 段 ， 读 者 可 根据 
上 下 文 区 分 。 在 有 的 上 下 文中 ， 段 指 的 是 真正 加 载 到 内 和 存 中 的 
Segment， 而 有 的 指 的 是 ELF 中 链接 时 使 用 的 Section。 


下 面 我 们 通过 命令 readelf 列 出 目标 文件 foo2.o 的 ELE 头 信息 。 


root@baisheng:~/demo# gcc -c hello.c fool.c foo2.c 
root@baisheng:~/demo# readelf -h foo2.0 
ELF Header: 


Magic: 7f 45 4C 46 01 01 01 00 00 00 00 00 00 00 00 00 

Class: ELF32 

Data : 2's complement, little endian 
Verslion: 1 Woeurrent, 

OS/ABI: UNIX = System V 

ABI Version: 0 

Type: REL (Relocatable file) 
Machine: Intel] 80386 


Version: QL 


Entry point address: 

Start of program headers: 

Start of section headers: 

Flags: 

Size of this header: 

Size of program headers: 

Number of program headers: 

Size of section headers: 

Number of section headers: 

Section header string table index: 


foo2.o 的 ELE 头 占用 了 52 字 节 ， 通 过 


文件 ;使 用 "little endian" 字 节 序 存储 字 节 ; ABI 过 循 UNIX-System V 标 


Ox0 

0 (bytes into file) 
264 (bytes into file) 
Ox0 


52 (bytes) 
0 (bytes) 
0 
40 (bytes) 
这 
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ELF 尖 可 见 访 文件 是 32 位 的 ELF 


准 ; 运行 在 类 UNIX 系 统 上 ; 该 文件 是 一 个 "REL(Relocatable file)" 类 型 的 
文件 ， 通 常 ， 可 执行 文件 的 类 型 是 "EXEC(Executable file)"， 动 态 共 享 库 
的 次 型 是 "DYN(Shared object file)"， 郊 人 态 库 和 目标 文件 的 类 型 

是 "REL(Relocatable file)"; 该 目标 文件 是 为 I[A32 淋 构 编 译 的 ;， 因 为 是 目 
标 文件 ， 不 存在 执行 的 概念 ， 所 以 程序 入 口 "Entry point address" 在 这 里 
不 适用 (同样 的 道理 ，Program Header Table 也 不 适用 ) ; foo2.o 中 的 
Section Header Table 在 偏 移 264 字 节 人 处 ，Section Header Table 中 的 每 个 
Section Header 占 用 40 字 节 ，Section Header Table 共 包含 12 个 Section 


Header。 


在 文件 头 信息 后 ， 就 是 各 个 段 了 。 暑 不 仿 张 地 说 ，ELF 文 件 惑 是 段 
的 组 合 。 大 体 上 ， 段 可 以 分 为 如 下 几 类 : 一 疾 是 存储 指令 的 ， 通 第 称 为 
代码 段 ， 第 二 类 十 存储 数据 的 ， 通 单 称 为 数据 段 。 但 是 存储 数据 的 义 细 
分 为 两 个 段 ， 已 经 初始 化 的 全 局 数据 存放 在 ".data" 段 中 ， 未 初始 化 的 全 
局 数据 存储 在 ".bss" 段 。 不 要 侯 BSS 这 个 令 人 困惑 的 名 称 迷 惑 ， 这 个 名 称 
不 是 非常 贴切 ， 完 全 是 历史 遗留 的 ，".data" 段 和 ".bss" 段 本 质 并 没有 什么 
不 同 ， 但 是 因为 未 初始 化 的 变量 不 包 舍 数据 ， 所 以 在 ELF 文 件 中 不 需要 
占用 空间 ， 程 序 疙 载 时 在 内 存 中 即时 分 配 就 可 以 了 。 所 以 ， 为 了 市 第 存 
储 右 空间 ， 人 为 地 将 存储 数据 的 部 分 划分 为 两 个 段 。 际 了 最 午 要 的 代 但 
段 和 数据 段 外 ， 汇 编 占 还 将 在 目标 文件 中 创建 辅助 链接 段 ， 和 存储 如 人 符 写 
表 、 午 定位 表 等 。 


我 们 考察 目标 文件 foo2.0 的 Section Header Table， 因 为 排版 篇 幅 的 
关系 ， 删 除了 后 面 几 列 ， 这 不 影响 我 们 讨论 。 有 兴趣 的 读者 ， 可 以 目 行 
碍 看 完整 的 命令 输出 。 


root@baisheng:~/demo#t readelf -S foo2.0 
There are 12 section headers, starting at offset 0Xx104 : 


Section Headers: 


[Nr] Name Type Addr Ort Size 

[ 0] NULL 00000000 000000 000000 
上 E 1 wtext PROGBITS 00000000 000034 000010 
[2] zrel:text REL 00000000 00039c 000008 
EF SI data PROGBITS 00000000 000044 000004 
[ 4] .bss NOBITS 00000000 000048 000000 
[ 5] .comment PROGBITS 00000000 000048 00002b 
[ 6] .note.GNU-stack PROGBITS 00000000 000073 000000 
| 7] .eh frame PROGBITS 00000000 000074 000038 
[ 8] .rel.eh frame REL 00000000 0003a4 000008 
bB I tietrtas STRTAB 00000000 0000ac 000057 
[10] .symtab SYMTAB 00000000 0002e4 0000a0 
Ll serrab STRTAB 00000000 000384 000017 


根据 输出 可 见 ， 


Section Header: 


目标 文件 foo2.o 的 Section Header Table 中 包含 12 个 


令 ".text" 段 存储 在 文件 中 偏 移 0x34 处 ， 占 据 0x10 个 字 节 。 读 者 不 要 
将 ".text" 段 和 进程 的 代码 段 混 消 ， 进 程 的 代码 段 不 仅 包 括 ".text" 段 ， 在 后 
面 链接 时 ， 我 们 还 会 看 到 ， 包 括 .init、.fini 等 段 存储 的 代码 都 属于 代码 
段 。 这 些 段 都 被 映射 到 Program Header Table 中 的 一 个 段 ， 在 ELF 加 载 
时 ， 统 一 作为 进程 的 代码 段 。 


令 ".data" 段 存储 在 文件 中 偏 移 0x44 字 节 处 ， 占 据 0x4 字 市 空间 。 


争 如 我 们 在 前 面 讨论 的 ， 虽 然 目标 文件 的 Section Header Table 中 包 
含 ".bss" 段 ， 但 是 因为 其 不 必 记 录 数 据 ， 所 以 ".bss" 段 在 文件 中 只 占据 
Section Header Table 中 的 一 个 Section Header， 而 并 没有 对 应 的 段 。 在 加 
载 程 序 时 ， 加 载 器 将 依据 ".bss" 段 的 Section Header 中 的 信息 ， 在 内 存 中 


为 其 分 配 空间 。 考 察 程 序 hello 欠 Section Header Table: 


root@baisheng:~/demo# readelf -S hello 
There are 30 section headers, starting at offset 0xXx1198 : 


Section Headers: 
[Nr] Name Type Addr 于 下 Size 


I25|. .bss NOBITS 0804a024 001024 000004 
[26] .comment PROGBITS 00000000 001024 00006b 


根据 输出 可 见 ，".bss" 段 在 文件 中 仿 移 为 0x001024， 但 是 占用 的 空 
站 (Size〉 并 不 是 0 字 和 有 有， 而 是 0x4 个 字 节 ， 这 是 为 什么 呢 ? 而 我 们 再 观 
察 ".comment" 段 在 文件 中 的 偏 移 ， 也 为 0x001024。 也 吏 是 说 ， 正 如 我 们 
前 面 讨论 的 ，".bss" 段 在 机 盘 文件 中 并 未 占据 任何 空间 ，".bss" 段 的 Size 
只 是 告诉 程序 加 载 器 在 加 载 程 序 时 ， 在 内 存 中 为 该 段 分 配 的 内 存 空 间 。 

争 '.symtab" 段 记录 的 是 符号 表 。 因 为 符号 的 名 字 字 串 长 度 可 变 ， 
所 以 目标 文件 将 符号 的 名 字 字 人 符 串 剥 离 出 来 ， 记 录 在 男 外 一 个 
段 ".strtab" 中 ， 符 号 表 使 用 符号 名 字 的 索引 在 段 ".strtab" 中 的 偏 移 来 确定 


符 志 的 名 字 。 


仿 同样 的 道理 ，".shstrtab" 中 记录 的 是 段 的 名 字 (sh 是 section header 


的 简写 ) 。 

令 以 "Tel" 开 头 的 ， 如 ".reltext"、".Treleh_ frame"， 记 了 录 的 是 段 中 瑚 要 
重 定位 的 符号 。 

仿 ".eh_ frame"' 段 中 记录 的 是 调试 和 异 利 处 理 时 用 到 的 信息 。 


令 ".comment"、".note.GNU-stack" 等 段 如 其 名 字 所 示 ， 都 是 一 
些 "comment" 和 "note"， 无 论 古 链接 还 是 疙 载 都 不 会 用 到 ， 我 们 不 必 关 


心 。 


综 上 所 述 ， 目 标 文件 的 格 却 如 图 2-3 所 示 。 


ELF Header 
x 


Sentiomn Header: ,| 3 nik 


Table | 一 






图 2-3 目标 文件 
2. 翻 详 机 各 指令 


机 避 指 令 由 操作 人 码 和 操作 数组 成 ， 操 作 人 码 指明 该 指令 所 要 完成 的 操 
作 ， 即 指令 的 功能 ， 例 如 数据 传送 、 加 法 运算 等 基本 操作 。 操 作 数 是 参 
与 操作 的 数据 ， 主 要 以 寄存 器 或 存储 器 地 址 的 形式 指明 数据 的 来 源 或 者 


计算 结 末 存放 的 位 置 等 。 机 此 指令 使 用 计算 机 可 以 识 列 的 0 和 1 编码 ， 可 
想 而 知 ， 这 对 程序 员 来 说 编码 难度 非 党 大。 因此， 为 了 更 容易 编制 出 程 
序 ， 束 出 现 了 汇编 指令 。 汇 编 指令 非 第 接近 机 可 指令 ， 但 是 机 右 指 令 中 
操作 人 码 和 操作 数 都 使 用 更 接近 目 然 语言 的 符号 来 代 稼 ， 这 类 目 然 语言 符 
号 分 别称 为 操作 但 助 记 符 和 操作 数 助 记 符 。 人 们 习惯 将 助 记 符 符 略 ， 直 
接 将 操作 人 码 助 记 侍 称 为 操作 人 码 ， 将 操作 数 助 记得 称 为 操作 数 ， 读 者 可 根 
据 上 下 文 区 分 。 


站 编 过程 束 古 将 助 记 符 翻译 为 对 应 的 以 0 和 1 表示 的 机 器 指令 ， 我 们 
也 将 其 称 为 操作 人 码 和 操作 数 的 编码 过 程 。 对 于 IA32 架 构 ， 其 机 器 指令 的 
格式 如 图 2-4 所 示 。 


Instruction Opcode ModR/M SIB Displacement | Immediate 
Prefixes 


Up to 4 1, 2, or 3 bytes 1 byte 1 byte Address Immediate 
prefixes of opcode (if required) (if required) displacement data of 
1 byte each GF.1, 2 HEA 1s OF4 
(optional) - \ bytes or none bytes or none 
大 所 
7， BS 只 之 0 7 6 5 3 0 


Reg/ 


图 2-4 IA32 机 器 指令 的 格式 


由 图 2-4 可 见 ， 操 a 作 人 码 Opcode 和 直接 散在 指令 中 。 操 作 人 的 翻 详 过 程 
相对 简单， 将 汇编 指令 中 的 操作 人 码 助 记 符 翻 详 为 相应 的 操作 人 码 即 可 ， 操 


作 但 助 记得 与 操作 人 码 的 对 应 关系 可 根据 CPU 的 指令 手册 确定 。 


将 操作 数 助 记 符 翻译 为 操作 数 的 机 需 码 相对 要 复杂 一 些 ， 操 作 数 并 
没有 直接 藤 在 指令 编码 中 ， 而 是 根据 汇编 指令 使 用 的 具体 寻 址 方式 ， 设 
置 ModR/M、SIB、Displacement 和 Immediate 各 项 的 值 ， 这 个 过 程 称 为 操 
作 数 的 编码 。CPU 根 据 ModR/M、SIB、Displacement 和 Immediate 的 值 ， 
解码 出 操作 数 。 


典型 的 操作 数 的 编码 方式 包括 下 和 面 几 种 。 如 果 读 者 不 太 理 解 下 面 的 
抽象 描述 ， 没 有 关系 ， 后 面 将 结合 具体 的 foo2.c 中 的 函数 foo2_func 探 讨 
机 器 指令 的 翻 诺 ， 访 者 可 以 前 后 结合 起 来 理解 。 

(1) 操作 数 地 址 通过 ModR/M 中 的 Mod+R/M 指 定 

ModR/M 占 用 1 字 市 ， 包 含 三 个 域 ; Mod、Reg/Opcode 和 R/M， 其 中 
Mod 占 两 位 、R/M 占 3 位 ，Reg/Opcode 占 3 位 。 操 作 数 可 以 使 用 ModR/M 


中 的 Mod 和 R/VM 字 段 联 合 起 来 定义 ， 寻 址 模式 与 Mod 和 R/M 联 合 编 码 的 
对 应 关系 如 表 2-1 所 示 。 


表 2-1 寻 址 模式 对 应 的 Mod 和 R/M 联合 编码 
[EAX| 000 
[ECX] 001 


[EDH] 111 
[EAX 和]+dlisp8 000 


re 
9 


Oo ~ Cn un 全 UU hi 一 


( 续 ) 


No. Effective Address Md R/M 
oe | i, 


10 [EBP]+disp8 101 


12 [EAX]+disp32 000 
13 10 …… 
14 [EDI]+disp32 111 


000 





四 


其 中 第 2 列表 示 寻 址 方式 生成 的 有 效 地 址 ;第 3 列 和 第 4 列表 示 对 应 
于 茶 个 寻 址 方式 ，Mod 和 R/M 分 别 对 应 的 编码 。 表 2-1 中 列 出 了 包含 直接 
寻 址 、 寄 存 器 寻 址 、 寄 存 器 间接 寻 址 、 基 址 寻 址 及 基 址 变 址 寻 址 等 寻 址 
方式 下 ModRV/M 中 Mod 和 R/VM 的 对 应 的 编码 。 如 采 汇 编 指 令 使 用 的 是 基 
址 变 址 寻 址 ， 那 么 机 器 指令 中 也 需要 字段 SIB。 


以 表 2-1 中 第 7 行为 例 ， 假 设 汇编 指令 使 用 的 寻 址 方式 是 " 
[EAX]+disp8"， 那 么 Mod 应 该 取 值 01，R/M 应 该 取 什 000。 偏 移 disp8 表 
示 8 位 的 Displacement， 根 据 机 器 指令 的 格式 ，Displacement 和 直接 散在 指 


令 中 即 可 。Displacement 根 据 表 示 的 值 的 范围 可 以 使 用 8 位 、16 位 或 者 32 
位 ， 这 主要 是 出 于 尺寸 方面 的 考虑 。 另 外 ， 在 机 器 指令 中 ， 
Displacement 需 要 使 用 补 码 形式 。 也 束 是 说 ， 在 CPU 执行 指令 时 ， 当 解 
析 到 ModR/M 这 个 字 节 时 ， 一 旦 发 现 Mod 的 值 是 01，R/M 的 值 是 000， 那 
么 CPU 就 到 寄存 磺 EAX 中 取出 其 中 的 内 容 ， 然 后 再 取出 藤 在 指令 中 的 8 
位 的 偏 移 Displacement， 将 这 两 个 值 相 加 作为 操作 数 的 内 存 地 址 ， 从 而 
完成 操作 数 的 解码 过 程 。 


(2) 操作 数 通过 ModR/M 中 的 Reg/Opcode 指 定 


ModR/M 中 的 字段 Reg/Opcode 占 据 3 位 。 如 果 在 汇编 指令 中 使 用 了 
寄存 器 作为 操作 数 ， 那 么 编码 时 也 可 以 使 用 Reg/Opcode 指 定 操 作 数 使 用 
的 寄存 器 。 如 末 操 作 数 不 需 要 使 用 字段 Reg/Opcode 编 码 ， 字 段 
Reg/Opcode 也 可 以 用 于 操作 码 的 编码 。 表 2-2 列 出 了 32 位 寄存 器 与 字段 
Reg/Opcode 取 值 的 对 应 天 系 。 


表 2-2 32 位 寄存 器 对 应 的 Reg/Opcode 的 编码 





(3) 操作 数 地 址 二 接 仍 入 在 机 和 硕 指 令 中 


如 果 在 汇编 指令 中 百 接 使 用 了 操作 数 的 地 址 ， 即 所 谓 的 直接 寻 址 方 
式 ， 那 么 在 翻译 为 机 需 指 令 时 ， 直 接 使 用 机 亏 指 令 中 的 Displacement 宁 


段 表 示 拘 作 数 的 地 址 。 
(4) 操作 效 百 接 观 入 在 指令 中 


如 宁 在 汇编 指令 中 ， 操 作 数 束 是 参与 计算 的 数据 ， 即 所 谓 的 立即 寻 
址 ， 那 么 在 翻译 为 机 需 指 令 时 ， 直 接 使 用 机 需 指 令 中 的 Inmediate 字 段 
表示 操作 数 。 


(5) 操作 数 隐 含 在 Opcode 中 


还 有 有 一 种 方式 ， 你 存 操作 数 的 寄存 融和 卫 接 隐 伟 在 操作 人 码 Opcode 中 ， 
妇 所 谓 的 隐 侣 寻 址 。 


根据 图 2-4 可 见 ， 除 了 操作 码 和 操作 数 外 ， 还 有 一 项 "Instruction 
Prefixes"。 很 难 用 一 段 话 准 确 地 描述 "Instruction Prefixes"， 我 们 可 以 打 
个 比方 : "Instruction Prefixes" 对 于 机 器 指令 类 似 于 "Modifier key" 对 于 键 
盘 上 的 按键 。Shift 键 作为 键盘 上 的 "Modifier key" 之 一 ， 如 对 于 数字 键 
3， 当 同时 按 下 Shift 键 时 ， 其 信 惑 变 为 了 符 气 “ 扩 。 如 同 Shift 键 只 对 键盘 
上 的 某 些 键 有 修饰 作用 一 样 ，"Instruction Prefixes" 也 只 对 部 分 指令 有 
效 。 


比如 对 于 下 面 的 两 闫 指令 ， 它 们 的 功能 相同 ， 都 是 在 两 个 操作 数 之 
间 传 递 数 据 。 只 不 过 第 一 奖 是 在 两 个 16 位 操作 数 之 间 传 递 数 据 ， 第 二 关 
征 在 两 个 32 位 操作 数 之 间 传 递 数 据 。 


me Ir/mlé6,r16 
MOV rm32 ,32 


Intel 并 没有 为 上 述 两 类 操作 分 别 定 义 两 个 操作 人 码 ， 而 是 使 用 了 同一 
个 操作 码 ， 但 是 使 用 Instruction Prefixes 区 分 指令 中 的 操作 数 是 16 位 的 还 
是 32 位 的 。 比 如 在 32 位 环境 下 使 用 了 16 位 的 操作 数 ， 那 么 殴 需 要 在 指令 
前 使 用 0x66 进 行 标识 。 


以 下 面 的 汇编 代码 为 例 ， 汇 编 文 件 as 中 的 第 一 条 汇编 代码 使 用 了 16 
位 的 寄存 器 ， 第 二 条 汇编 代码 在 32 位 寄存 器 间 传 递 数据 。 


mMOV ax, $bx 
mMOV eax, ebx 


将 a.s 编 译 为 日 标 文件 ， 并 俘 看 对 应 的 机 右 指 令 : 
root@baisheng:~/demo# gcc -cc a.s 
root@baisheng:~/demo# cbjdump -d a.o 
a.o0: file format elf32-1386 
Disassembly of section .text: 
00000000 <.text>: 


0: 66 89 c3 mMOV Sax, Sbx 
3 : 89 c3 MOV Teax, ebx 


我 们 观察 第 一 条 指令 和 第 二 条 指令 的 区 别 ， 因 为 笔者 使 用 的 是 32 位 
的 计算 环境 ， 所 以 第 一 条 指令 多 了 前 缀 0x66。 也 就 是 说 ， 在 使 用 32 位 操 
作 数 的 环境 下 ， 对 于 使 用 了 16 位 操作 数 的 机 器 指令 ， 指 令 前 面 需要 加 上 


六 缀 0x66。 


Intel 规 定 了 四 组 指令 前 级 : Lock and repeat prefixes、Segment 
override prefixes 和 Branchhints、Operand-size override prefix， 以 及 
Address-size override prefix。 表 面 我 们 讨论 的 是 Operand-size override 


prefix， 其 他 几 个 不 在 这 里 讨论 了 了， 有 需要 的 读者 可 以 参考 Intel 手 册 。 


在 基本 理解 了 从 汇编 指令 翻译 为 机 人 规 指 令 的 原理 后 ， 下 面 我 们 残 结 
合 foo2_func 中 的 两 条 汇编 指令 具体 探讨 一 下 将 汇编 指令 翻 详 为 机 豆 指 令 


的 过 程 。 
mowvl foo2, eax 
movl Seax, -4 ($ebp) 


这 两 条 指令 使 用 的 都 是 mov 指 令 ，IA-32 架 构 的 mov 指 令 说 明 如 表 2- 
3 所 示 ， 限 于 篇 幅 ， 我 们 仅 列 出 了 部 分 。 表 2-3 中 有 两 列 需 要 特别 关注， 
一 列 是 "Opcode"， 这 个 无 需 解释 了， 指令 对 应 的 操作 码 ; 夯 外 一 列 
是 "Op/En"，"Op/En" 是 "Operand/Encoding" 的 简写 ， 根 据 列 的 名 称 相信 
读者 已 经 猿 出 来 了 了， 该 列表 示 操 作 数 的 编码 方式 。 


表 2-3 mov 指令 参考 (部 分 ) 


一 一 Op/En 


Sm 


MOV r32, 1Imm32 


B8+ rd 


Description 
Move r8 to r/ms. 
Move r8 to r/ms. 
Move rl6 to rm10. 


Move r32 to r/m32. 


Move word at (seg:offset) to AX. 
Move doubleword at (seg:offset) to EAX. 


Move Imm32 to r32. 


我 们 看 人 到， 对 于 MOV 指 令 ， 不 仅仅 只 有 一 个 操作 人 码 。 对 于 同一 


操作 ， 可 能 使 用 不 同 的 操作 数 ， 
址 ， 同 时 操作 数 还 会 有 长 度 之 分 ， 比 如 8 位 、16 位 或 者 32 位 。Intel 采 取 
的 策略 是 为 同一 类 指令 设计 了 多 个 操作 码 来 细 分 这 


段 代位 : 


VOl1dQ malinl) 


| 


char XxX, a; 


到 下 
并 三 有 
y = b; 


操作 数 可 能 是 寄存 磺 ， 也 


可 能 是 内 存 地 


文 些 指 令 。 比 如 下 面 一 


我 们 编 详 并 考察 其 机 问 指 令 : 
TOE =C a 
objdump -d a.o 
i file format elf32-1386 
Disassembly of section .text: 


00000000 <main>: 


0: SS push Sebp 

1 89 e5 moOv esp, ebp 

3: 83 ec 10 sub SO0X10,%Yesp 

6 Of DP6 45 f6 movzbl] -Oxa (Sebp) ,Seax 
a: 88 45 £7 mOV 告 坪 上 ，- 0X9 ($ebp) 
dd: 8b 45 f8 MOv -0x8 (Sebp) ,Seax 
10: 89 45 fc mOV Seax, -0x4 (Sebp) 
有 C9 leave 

14 心志 ret 


根据 反 汇 编 的 输出 可 见 ， 两 条 赋值 语句 ， 对 应 都 是 汇编 中 的 MOV 
指令 。 但 是 ， 对 于 语句 "x=a"， 即 偏 移 a 处 ， 因 为 操作 数 是 8 位 的 ， 所 以 
对 应 的 机 器 码 是 0x88， 也 就 是 表 2-3 中 的 第 1 行 。 对 于 语句 "y=b"， 对 应 
偏 移 0x10 处 ， 因 为 操作 数 是 32 位 的 ， 所 以 机 右 人 码 用 的 是 0x89， 即 表 2-3 


中 的 第 4 行 。 


表 2-3 中 值得 关注 的 另外 一 列 "Op/En" 指 明了 对 应 一 个 指令 的 操作 数 
的 编码 方式 。 每 一 类 指令 都 有 日 己 的 操作 数 编 码 方式 ， 对 于 MOV 指 
令 ， 其 操作 数 的 编 公 方式 有 6 类 ， 分 别 用 A~F 来 代表 ， 如 表 2-4 所 示 。 


表 2-4 MOYV 指令 的 操作 数 编码 说 明 


D 
E 
F 





ModRM:r/m (w) 1mm8/,16/32/,64 NA 





根据 表 2-4 可 见 ， 如 来 采用 A 类 编 乌 方式 ， 第 一 个 操作 数 使 用 
ModRM 中 的 R/M 指 明 ， 第 二 个 操作 数 使 用 ModRM 中 的 Reg/Opcode 指 
明 。 如 末 使 用 B 交 编码 方式 ， 恰 恰 相 反 ， 第 二 个 操作 数 使 用 ModRM 中 的 
R/M 指 明 ， 第 一 个 操作 数 使 用 ModRM 中 的 Reg/Opcode 指 明 。 


看 过 了 MOV 指 令 的 基本 说 明 后 ， 我 们 来 讨论 如 下 指令 : 
me foo2, Seax 


这 里 裔 要 特别 注意 一 上 ， 编 详 卓 生成 的 汇编 代 人 码 使 用 的 是 AT&T 的 
格式 ， 其 操作 数 的 顺序 与 ntel 的 汇编 指令 正好 相反 ， 所 以 这 条 指令 中 的 
第 一 个 操作 数 "foo2" 古 Intel 语 法 中 的 第 二 个 操作 数 ， 这 条 指令 中 的 第 二 


个 操作 数 "%eax" 是 Intel 语 法 中 的 第 一 个 操作 数 。 


根据 这 条 指令 的 两 个 操作 数 ， 参 照 表 2-3， 匹 配 表 中 的 第 7 行 ， 
BR"MOYV EAX,moffs32"， 根 据 该 行 指令 的 说 明 ， 操 作 但 0xA1 隐 含 地 指 
出 了 指令 中 的 第 一 个 操作 数 是 寄存 器 EAX， 也 就 是 寻 址 方式 中 所 谓 的 操 
作 数 隐 含 寻 址 。 


根据 表 2-3 的 "OpP/En" 列 可 见 ， 访 指令 的 操作 数 的 编码 方式 是 C， 参 
考 表 2-4 可 见 ，C 关 编 但 方式 并 不 需要 ModR/M， 当 然 也 不 需要 SIB 了 ， 
而 且 也 没有 使 用 立即 数 作 为 操作 数 ， 亦 不 需要 特殊 的 指令 前 级 进行 修 
饰 。 而 且 ， 第 一 个 操作 数 寄存 器 EAX 是 通过 操作 码 隐 含 指明 。 所 以 ， 该 
条 六 编 代码 最 后 转换 为 如 下 形式 的 机 融 指 令 : 


Opcode + Displacement 


第 二 个 操作 数 "foo2" 通 过 Displacement 表 示 。 这 里 ， 因 为 还 没有 链 
接 ，foo2 的 地 址 尚未 确定 ， 所 以 暂时 填充 0 占 位 ， 在 链接 时 将 根据 实际 
地 址 修改 。 因 为 是 运行 在 32 位 环境 下 ， 所 以 地 址 是 32 位 的 ， 
Displacement 占 用 4 字 节 。 绽 上 所 述 ， 访 指令 的 机 喜人 码 翻译 为 : 


al 00 00 00 00 
再 来 看 指令 : 
MOV eax, -0X4 (Sebp) 


根据 这 条 指令 的 两 个 操作 数 ， 参 照 表 2-3 可 见 ， 该 指令 匹配 表 中 的 
第 4 行 ， 即 "MOV rm32,r32"， 访 指令 的 操作 但 为 0x589。 在 硝 定 了 操作 三 
后 ， 我 们 再 来 看 操作 数 的 编码 方式 ， 根 据 表 2-3 中 该 指令 的 列 "Op/En" 可 
见 ， 访 指令 使 用 了 A 类 操作 数 编码 方式 。 根 据 表 2-4 可 见 ，A 类 编码 中 的 
第 一 个 操作 数 由 ModR/M 中 的 Mod 和 R/M 共 同 指明 ， 第 三 个 操作 数 由 


ModR/M 中 的 Reg/Opcode 指 明 。 


指令 的 第 一 个 操作 数 "-0x4(%ebp)"， 相 当 于 [EBP]+disp8， 这 里 
Displacement 为 什么 用 8 位 ， 而 不 是 32 位 昵 ? 因为 对 于 -4， 用 1 学 节 表 示 
足够 了 ， 使 用 4 字 贡 只 能 徒 增 二 进 制 文件 的 尺寸 。 根 据 A 关 编码 方式 的 
要 求 ， 第 一 个 操作 数 使 用 的 寄存 器 需要 由 ModR/M 中 的 Mod 和 R/M 共 同 
指明 ， 参 照 表 2-1， 根 据 寻 址 模式 可 [匹配 第 10 行 ， 该 行 中 Mod 为 01，R/M 
为 101， 且 第 一 个 操作 数 中 的 偏 移 -4 由 Displacement 表 示 ， 在 机 器 指令 中 
需要 使 用 数 的 补 人 码 形式 ，-4 的 补 人 码 为 fc。 


根据 A 类 编码 方式 的 要 求 ， 第 二 个 操作 数 由 ModR/M 中 的 
Reg/Opcode 指 明 。 汇 编 指 令 的 第 二 个 操作 数 使 用 的 寄存 磊 是 EAX， 对 照 


表 2-2， 天 存货 EAX 对 应 的 Reg/Opcode 值 为 000。 
综 上 所 述 ， 该 汇编 指令 对 应 的 机 器 编码 格式 为 : 
Opcode + ModR/M + Displacement 


其 中 Opcode 为 0x89，ModR/M 的 二 进 制 值 为 01 000 101， 用 十 六 进 
制 表示 为 0x45，Displacement 为 fc， 访 汇编 代码 的 机 器 编 但 为 : 


89 45 fc 


人 至此， 我 们 通过 foo2_func 中 的 赋值 语句 讨论 了 汇编 指令 到 机 堪 指 令 


的 翻译 过程 。 相 信 读 者 对 机 大 指 令 〈 包 括 汇编 指令 ) 已 经 有 J 了 更 好 的 理 


解 。 


我 们 来 查看 一 下 目标 文件 foo2.o 中 这 两 条 汇编 指令 对 应 的 真正 的 机 


器 指令 : 


root@baisheng:~/demo# objdump -d foo2.0 
ooo flle format elf32-1386 


Disassembly of section 


00000000 <foo2 func>: 


55 
89 
83 
al 
89 
人 二 
让 


Frh 而 这 史上 己 


全 5 
EC 
00 
45 


10 
00 00 00 
fce 


, 七 已 其 七 : 


DPUSD 
MOWV 
sub 
MOWV 
MOWV 
leave 
ret 


Sebp 

Sesp, ebp 
SOxX10,%esp 

D0Xx0, Seax 
Seax, -0x4 ($ebp) 


其 中 偏 移 地 址 0x6 和 0xb 人 处 ， 束 是 我 们 前 面 讨 论 的 两 条 汇编 指令 。 根 
据 输 出 可 见 ， 与 我 们 的 讨论 结果 完全 吻合 。 


objdump 的 输出 是 经 过 加 工 的 ， 我 们 使 用 工具 hexdump 原 并 原味 地 
将 目标 文件 foo2.o 转 存 (dump) 出 来 ， 碍 看 其 代码 段 部 分 和 数据 段 音 
分 。 我 们 使 用 了 更 精确 的 参数 控制 hexdump 的 输出 ，"%04_ax" 表 示 使 用 
4 位 十 六 进 制 显 示 仿 移 ; “16/1” 表 示 每 行 显示 16 字 方 ， 逐 字 届 解 
析 ; "%02x" 表 示 以 十 六 进 制 显示 ， 每 个 字符 占据 两 位 。 为 了 方便 ， 读 者 
使 用 参数 "-C" 即 可 。 总 之 ， 要 控制 hexdump 逐 个 字 节 解析 ， 避 免 


hexdump 以 双 字 下 为 单位 进行 解析 ， 并 且 避 免 使 用 little-endian 进 行 显示 
可 能 给 读者 造成 的 困惑 。 下 和 面 古 我 们 截取 的 foo2.0 的 ".text" 上 段 和 ".data" 段 


的 片段 : 


0000 : 
OQIL0: 
0020: 
QQ3 0 
0040: 


45 
00 
00 
00 
be) 


3 


46 


0 D1 
01 00 
00 00 
Ss Hy 
14 00 


Dy VHD 
上 沿 昌 
00 00 
e5 283 
00 00 


34 
ec 
00 


If SO2x" NTY 


Fo 


其 中 起 始 于 仿 移 0x34 处 、 占 据 0x10 字 节 的 加 粗 和 斜体 部 分 正 是 
objdump 输 出 的 foo2_func 的 机 器 指令 。 


注意 起 始 于 偏 移 0x44 字 节 处 、 占 据 0x4 字 节 空 间 的 下 划 线 标识 的 4 字 
节 。 注 意 ，IA32 架 构 上 ， 数 据 是 按照 little-endian 顺 序 存 放 的 ， 所 以 这 4 
字 节 表示 的 数据 是 0x14， 而 不 是 0x14000000。 十 六 进 制 的 0x14 正 好 是 
foo2.c 中 的 全 局 变量 foo2 的 初始 值 20。 


这 里 转 存 出 的 ".text" 段 和 ".data" 段 的 信息 与 foo2.o 中 的 Section Header 
Table 中 输出 的 关于 ".text" 段 和 ".data" 段 的 信息 也 完全 吻合 ， 即 ".text" 段 起 
始 于 0x34， 占 据 0x10 字 有 ; ".data" 段 起 始 于 0x44， 占 据 0x4 字 节 。f002.0 
的 Section Header Table 中 关于 这 两 个 段 的 信息 如 下 : 


root@baisheng:~/demo# readelf -SsS foo2.0 
There are 12 section headers, starting at offset Oxl104: 


Section Headers: 
[Nr] Name Type Addr EE Size 


FE 3 et PROGBITS 00000000 000034 000010 


让 、 寺 Ea PROGBITS 00000000 000044 000004 
jj /V 
SE 


在 进行 汇编 时 ， 在 一 个 柑 块 (这 里 我 们 将 一 个 .c 文 件 称 为 一 个 模 
块 ) 内 ， 如 果 引 用 了 其 他 模块 或 库 中 的 变量 或 者 函数 ,汇编 右 并 不 会 解 
析 引 用 的 外 部 符 写 。 因 为 在 汇编 时 ， 模 块 是 独立 编译 的 ， 所 以 对 于 引用 
的 外 部 的 符号 一 无 所 知 。 而 且 退 一 步 说， 在 和 汇编 时 并 没有 为 从 号 分 配 运 
行 时 地 址 (行文 中 有 时 也 称 为 虚拟 地 址 ，， 所 以 即使 汇编 器 找到 了 这 些 

人 符号， 也 没有 任何 意义 ， 这 些 符 亏 的 地 址 只 是 临时 的 ， 在 进行 链接 时 链 
接 右 才 会 为 这 些 稚 写 分 配 运行 时 地 址 。 


因此 ， 在 目标 文件 的 机 器 指令 中 ， 汇 编 器 基本 上 是 留 “ 空 ?引用 的 外 
部 符号 的 地 址 。 然 后 ， 在 链接 时 ， 在 符号 地 址 确定 后 ， 链 接 器 再 来 修订 
这 些 位 置 ， 这 个 修订 过 程 被 称 为 重 定位 。 当 然 除 了 编译 时 重 定 位 ， 还 有 
加 载 和 运行 时 重 定位 ， 本 章 讨论 前 者 ， 我 们 在 第 5 章 讨论 后 者 。 事 实 
上 ， 为 了 辅助 链接 器 在 链接 时 计算 修订 值 ， 这 些 需 要 修订 的 位 置 并 不 是 
全 部 都 置 为 0， 有 时 这 里 填充 的 是 一 个 Addend， 这 就 是 之 所 以 使 用 引号 
将 空 引用 起 来 的 原因 。 下 面 我 们 将 会 看 到 这 个 Addend。 


但 是 链接 问 并 不 能 聪明 到 可 以 目 动 找到 目标 文件 中 引用 外 部 从 号 的 
地 方 ， 所 以 在 目标 文件 中 需要 建立 一 个 表格 ， 这 个 表格 中 的 每 一 条 记录 
对 应 的 束 古 一 个 需要 章 定 位 的 从 写 ， 这 个 表格 通 第 称 为 重 定位 表 ， 汇 编 
希 将 为 可 重 定位 文件 中 每 个 包 侣 需要 重 定位 符 亏 的 段 者 建立 一 个 重 定位 
表 。ELF 标 准 规 定 ， 音 定位 表 中 的 表 项 可 以 使 用 如 下 两 种 格式 : 
glibe-2.15/elf/elf.h: 


typedef struct 


Elf32 Addr r offset,; * Address */ 
Elf32 Word rr nEOy /* Relocation type and symbol index */ 
} El£f32 Rel; 


i 


typedef struct 


Elf32 Addr r offset,; /* Address */ 
Elf32 Word 有 二 六 5 /* Relocation type and symbol index */ 
Elf32 Sword r addend; /* Addend */ 


} Elf32 Rela; 


这 两 种 格式 唯一 的 不 同 是 成 员 r_addend。 这 个 成 员 一 般 是 个 常量 ， 
用 来 辅助 计算 修订 值 。 如 末 使 用 了 第 一 种 格式 ， 那 么 r_addend 将 个 填 元 
在 引用 外 部 符 写 的 地 址 处 ， 也 束 是 前 面 所 说 的 留 “ 空 处。 具体 的 体系 结 
构 可 以 选择 适合 目 己 的 一 种 格式 ， 或 者 两 种 格式 都 使 用 ， 只 不 过 在 不 同 
的 上 下 文中 使 用 更 合适 的 格式 。IA32 主 要 使 用 了 前 者 ， 但 是 也 在 个 别 的 
情况 下 了 使 用 了 一 点 后 痢 。 


r_offset 为 需要 重 定 位 的 符 亏 在 目标 文件 中 的 俩 移 。 需 要 注意 的 是 ， 
对 于 目标 文件 与 可 执行 文件 或 者 动态 库 ， 这 个 但 是 不 同 的 。 对 于 目标 文 
件 ，r_offset 征 相对 于 段 的 ， 古 段 内 偶 移 ， 而 对 于 可 执行 文件 或 者 动态 


库 ，r_offset 是 虚拟 地 址 。 


r_info 中 包含 重 定 位 类 型 和 此 处 引用 的 外 部 符号 在 符号 表 中 的 索 

引 。 根 据 符号 在 符号 表 中 的 索引 ， 链 接 器 就 可 以 从 符号 表 中 解析 出 符号 
的 地 址 。 因 为 指令 中 包含 多 种 不 同 的 寻 址 方式 ， 并 且 还 要 针对 不 同 的 情 
况 ， 所 以 有 多 种 不 同 的 重 定位 类 型 。 不 同 的 重 定位 类 型 ， 重 定位 的 方法 
也 不 同 。 在 2.1.4 节 中 讨论 “符号 重 定 位 ?时 ， 我 们 将 讨论 编译 时 使 用 的 典 
型 的 重 定位 类 型 ， 包 括 R_386_32 和 R_386_PC32。 在 第 5 章 讨论 动态 重 定 
位 时 ， 我 们 将 讨论 加 载 和 运行 时 使 用 的 典型 的 重 定位 类 型 
R_386_GLOB_DAT 和 R_386_JMP_SLOT 等 。 


了 解 了 重 定 位 的 基本 理论 后 ， 下 面 我 们 来 看 一 下 有 具体 的 实例 。 使 用 
工具 readelf 答 看 目标 文件 hello.o 的 重 定位 表 : 


root@baisheng:~/demo# readelf -r hello.o 


Relocation section '.rel.text' at offset Ox3c4 contains 2 entries: 
Offset Info Type Sym.Value Sym. Name 

O0000000b 00000901 R 386 32 00000000 f O02 

0000001b 00000a02 R 386 PC32 00000000 foo2 func 

Relocation section '.rel.eh frame' at offset 0x3d4 contains 1 entries: 
Offset Info Type Sym.Value Sym. Name 

00000020 00000202 R 386 PC32 00000000 EE 


根据 输出 可 见 ，hello.o 中 "text" 段 和 ".eh_frame" 段 中 都 有 符 守 需要 重 
定位 ， 所 以 建立 了 两 重 定位 表 。 


在 ".text" 段 的 午 定 位 表 中 ， 我 们 看 到 ， 目 标 文件 hello.05 引 用 的 外 部 


从 号 foo02 和 foo2_func 分 别 占据 表 中 的 第 一 条 和 第 二 条 重 定 位 记录 。 根 据 
前 面目 标 文 件 hello.o 的 反 汇 编 结 果 ，foo2 在 偏 移 0xb 处 ，foo2 func 在 偏 移 
0x1lb 处 ， 与 这 里 的 输出 完全 一 致 。 


看 过 重 定位 表 后 ， 我 们 再 来 看 看 汇编 右 在 目标 文件 hello.o 中 引用 符 
号 foo2 和 foo2_func 处 填充 的 Addend 是 什么 。 我 们 使 用 工具 objdump 碍 看 
目标 文件 hello.o: 
root@baisheng:~/demo# objdump -d hello.o 
hello.o: file ftormat elf32-1386 


Disassembly of section .text: 


00000000 <maln>: 


0: S55 push Sebp 
下 89 e5 MOV esp, Tebp 
卫衣 83 ed4 f0 and SOxfffffff0,$esp 
6: 83 ec 10 sub 0X10,$%esp 
9: 7 05 00 00 00 00 05 movl SO0x5, 0x0 
FE 00 00 00 
二 访 襄 ce O04 24 32 00 O00 00 mowvl] SO0XxX32, (Sesp) 
la: es fe ff ff ff£ call lb <main+Oxlb> 
if; C9 leave 
和 性 ret 


根据 objdump 的 输出 可 见 : 


令 在 偏 移 0xb 人 处， 对 应 的 就 是 变量 foo02 的 地 址 ， 汇 编 占 填充 的 
Addend 是 0。 


令 在 偏 移 0x1b 处 ， 对 应 的 是 函数 fo02 func 的 地 址 ， 汇 编 器 填充 的 
Addend 是 "fcffffff"， 因 为 IA32 使 用 的 是 little-endian 字 节 序 ， 补 
人 "fffffffc" 对 应 的 原 码 是 4。 


在 引用 符 志 foo2 的 位 置 ， 质 充 0 征 比较 容 匈 理解 的 ， 链 接 左 只 再 归 
找到 符号 fo0o2 的 运行 时 地 址 蔡 换 这 里 的 0 束 好 了 。 但 十 在 引用 从 号 
foo2_func 的 位 置 ， 为 什么 使 用 -4 呢 ， 这 完 竟 是 一 个 什么 麻 数 ? 我 们 在 
2.1.4 节 中 讨论 “符号 重 定位 ?时 ， 再 讨论 这 个 -4 的 由 来 。 


站 人” 


既然 在 链接 时 ， 需 要 重 定 位 目标 文件 中 引用 的 外 部 符号 ， 有 显然 ， 链 
接 僚 需要 知道 这 些 符号 的 定义 在 哪里 ， 为 此 汇编 右 在 每 个 目标 文件 中 创 
建 了 一 个 答 写 表 ， 符 写 表 中 记录 了 这 个 模块 定义 的 可 以 提供 给 其 他 模块 
引用 的 全 局 符号 。 可 以 使 用 工具 readelf 查 看 文件 中 的 符号 表 ， 如 目标 文 
件 foo2.0 的 从 号 表 如 下 : 


root@baisheng:~/demo# readelf -sg foo2.o 


Svymbol table '.symtab' contains 10 entries: 

Num: Value Size Type Bind Vis Ndx Name 
0: 00000000 0 NOTYPE LOCAL DEFAULT UND 
1: 00000000 0 FILE LOCAL DEFAULT ABS foo2.c 
2: 00000000 0 SECTION LOCAL DEFAULT 1 
3: D0000000 0 SECTION LOCAL DEFAULT 3 
4: 00000000 0 SECTION LOCAL DEFAULT 了 
5: 00000000 0 SECTION LOCAL DEFAULT 6 
6: 00000000 0 SECTION LOCAL DEFAULT ¥ 
7: 00000000 0 SECTION LOCAL DEFAULT > 
8: O00000000 4 OBJECT GLOBAL DEFAULT 3 fo02 
9: O0000000 16 FUNC GLOBAL DEFAULT 1 foo2 func 


根据 输出 可 见 ，foo2.o 符 号 表 包 侣 10 个 符号 。Value 列 表示 的 是 符号 
的 地 址 。 前 面 我 们 提 到 ， 链 接 时 链接 问 才 会 为 从 号 分 配 地 址 ， 所 以 我 们 
看 到 的 符号 的 地 址 全 部 是 0。Size 列 表示 符 写 对 应 的 实体 占据 的 内 存 大 
小 ， 如 变量 foo2 占 据 4 字 节 ， 函 数 fo02_func 占 据 16 字 节 。Type 列 表示 符 
写 的 类 型 ， 如 foo2 类 型 为 OBJECT， 表 示人 变量 ; foo2 func 类 型 为 
FUNC， 表 示 函 数 。Bind 列 表示 符 写 绑 定 的 相关 信息 ，LOCAL 表 示 模 块 
内 部 符号 ， 对 外 部 不 可 见 ，GLOBAL 表 示 全 局 符号 ，foo2 和 foo2_func 都 
属于 全 局 变量 。Ndx 列 表示 该 符 扎 在 哪个 段 ， 如 foo2 在 第 3 个 段 ， 
即 ".data" 段 ，foo2_func 在 第 1 个 段 ， 即 "text" 段 。Name 列 表示 符号 的 名 


称 。 


除了 模块 定义 的 符号 外 ， 符 号 表 中 也 包括 了 模块 引用 的 外 部 符号 ， 
如 模块 hello 的 符号 表 如 下 : 


root@baisheng:~/demo# readelf -s hello.o 


Symbol table '.symtab' contains 11 entries: 


Num: Value Size Type Bind Vis Ndx Name 
0: 00000000 0 NOTYPE LOCAL DEFAULT UND 
1» OO0G00GQU0O 0 FILE LOCAL DEFAULT ABS hello.c 
2: 00000000 0 SECTION LOCAL DEFAULT 1 
3: 00000000 0 SECTION LOCAL DEFAULT 3 
4: 00000000 0 SECTION LOCAL DEFAULT 1 
5: O00000000 0 SECTION LOCAL DEFAULT 6 
6: 00000000 0 SECTION LOCAL DEFAULT 
7: 00000000 0 SECTION LOCAL DEFAULT S 
8: 00000000 33 EUNG GLOBAL DEFAULT 1 main 
9 OOO00Q00000 0 NOTYPE GLOBAL DEFAULT UND foo2 
10: 00000000 0 NOTYPE GLOBAL DEFAULT UND foo2 func 


符号 foo2 和 foo2 func 都 在 模块 foo02 中 定义 ， 对 于 模块 hello 来 说 是 外 
部 符 写 ， 没 有 在 任何 一 个 段 中 ， 所 以 在 列 Ndx 中 ，foo2 和 foo2_func 的 值 
是 UND。UND 是 Undefined 的 缩写 ， 表 示人 符号 foo2、foo2_ func 是 未 定义 
的 。 


在 链接 时 ， 对 于 模块 中 引用 的 外 部 符号 ， 链 接 器 将 根据 符号 表 进 行 
符号 的 重 定 位 。 如 果 我 们 将 符号 表 删 除了 ， 那 么 链接 器 在 链接 时 将 找 不 
到 符号 的 定义 ， 从 而 不 能 进行 正确 的 符号 解析 。 如 我 们 将 foo2.o 中 的 符 
号 表 删 除 ， 再 次 进行 链接 ， 则 链接 器 将 因 找 不 到 符号 定义 而 终止 链接 ， 
如 下 所 示 : 


root@baisheng:~/demo/tmp# strip foo2.0 

root@baisheng:~/demo# gcc -o hello *.o 

/usr/bin/l1ld: error in foo2.0(.eh frame); no .eh frame hdr table will be created. 
edge Tn functiorn ma 

hello.c: (.text+0xb): undefined reference to 'foo2' 

hello.c: (.text+0x1b): undefined reference to 'foo2 func'! 

collect2: error: ld returned 1 exit status 


2.1.4 链接 


链接 是 编译 过 程 的 最 后 一 个 阶段 ， 链 接 规 将 一 个 或 者 多 个 目标 文件 
和 库 ， 包 括 动 态 库 和 评 态 库 ， 链 接 为 一 个 单独 的 文件 〈 通 第 为 可 执行 文 
件 、 动 态 库 或 者 静态 库 ) 。 和 链接 右 的 工作 可 以 分 为 两 个 阶段 : 


令 第 一 阶段 是 将 多 个 文件 合并 为 一 个 单独 的 文件 。 对 于 可 执行 文 


件 ， 还 需要 为 指令 及 从 写 分 配 运行 时 地 址 。 
令 第 二 阶段 进行 符 亏 重 定位 。 
1. 合 并 目标 文件 


合并 多 个 目标 文件 其 实 束 是 将 多 个 目标 文件 的 相同 类 型 的 段 合 并 到 
一 个 段 中 ， 如 图 2-5 所 示 。 


Object Flle 1 


Text Section 


Data Section Text Section 


Text Section 
Data Section 


Data Section 





Oblect File 2 


Executable 


图 2-5 合并 目标 文件 


我 们 来 看 一 下 目标 文件 和 链接 后 的 可 执行 文件 的 ".text" 段 。 下 面 分 
别 列 出 了 目标 文件 hello.o、foo1.o、foo2.o 以 及 可 执行 文件 hello 的 段 表 中 
的 ".text" 段 的 相关 信息 。 由 于 仿 幅 限制 ， 我 们 删除 了 输出 的 后 面 儿 列 。 


root@baisheng:~/demo# readelf -S hello.o 
There are 12 section headers, starting at offset 0xXx118 : 


Section Headers: 


[INr] Name Type Addr Off Size 
人 没 NULL 00000000 000000 000000 
i PROGBITS 00000000 000034 000026 


root@baisheng:~/demo# readelf -S fool.o 
There are 12 section headers, starting at offset 0xXx104: 


Section Headers: 


[Nr] Name Type Addr GEE Size 
L 设 3 NULDL 00000000 000000 000000 
[和 PROGBITS 00000000 000034 000010 


root@baisheng:~/demo# readelf -3S foo2.0 
There are 12 section headers, starting at offset 0Xx104: 


Section Headers: 


[Nr] Name Type Addr ot Size 
L 墩 | NULL 00000000 000000 000000 
EL stext PROGBITS 00000000 000034 000010 


root@baisheng:~/demo# readelf -S hello 
There are 30 section headers, starting at offset 0x1198 : 


Section Headers: 
[Nr] Name Type Addr Off Size 


[13] .text PROGBITS 080482f0 0002f0 0001b8 


根据 上 面 的 输出 结 末 可 见 ， 对 于 目标 文件 ， 并 没有 为 目标 文件 中 的 
机 器 指令 及 符号 分 配 运 行 时 地 址 。 而 对 于 可 执行 文件 hello， 链 接 器 已 经 
为 其 机 器 指令 及 符号 分 配 了 运行 时 地 址 ， 如 对 于 可 执行 文件 hello 
的 ".text" 段 ， 其 在 进程 地 址 空间 中 起 始 地 址 为 "0x080482f0"， 占 据 了 


0x1b8 字 节 。 
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按照 前 面 我 们 提 到 的 目标 文件 合并 理论 ， 理 论 上 三 个 目标 文件 
hello.o、foo1.0o、foo2.0 的 ".text" 段 的 尺寸 加 起 来 应 该 与 可 执行 文件 hello 


的 ".text" 段 的 尺寸 大 小 相等 。 但 是 ， 通 过 readelf 的 输出 可 见 ， 三 个 目标 
文件 的 ".text" 段 的 尺寸 加 起 来 是 0x46 (0x26+0x10+0x10〉 字 节 ， 远 小 于 
可 执行 文件 hello 的 ".text" 段 的 大 小 0x1b8。 如 果 读 者 在 编译 时 向 gcc 传 递 
了 参数 -Vv， 仔 细 观 察 gcc 的 输出 可 以 发 现 ， 实 际 上 在 链接 时 链接 器 自作 
主张 地 链接 了 一 些 特别 的 文件 ， 包 插 crtl.o、crti.o、crtn.0、crtbegin.0 及 
crtend.0o 和 等， 其实 束 是 我 们 前 面 提 到 的 局 动 文件 。 所 以 多 出 来 的 尺寸 部 


是 合并 这 些 文件 的 ".text" 导 和 有致 的 。 


下 面 我 们 手动 调用 1d， 不 链接 这 些 局 动 文件 ， 册 来 对 比 一 
下 ".text" 段 的 尺寸 。 在 献 认 情 况 下 ， 链 接 右 将 使 用 函数 "_start" 作 为 可 执 
行文 件 的 入 口 ， 但 是 这 个 函数 的 实现 在 局 动 文件 《crt1l.0) 中 ， 因 此 ， 
在 这 里 我 们 通过 给 链接 需 1d 传 递 参数 "-e main"， 明 确 香 诉 链接 邢 不 使 用 
堆 认 的 ”start" 了， 人 否则 链接 硕 会 找 不 到 符号 ”start"， 而 直接 使 用 函数 
main 作 为 可 执行 文件 的 入 口 。 当 然 main 函 数 中 并 没有 实现 局 动 代 码 的 功 
能 ， 在 这 里 我 们 只 是 为 了 得 看 ".text" 段 的 矿 寸 。 有 具体 如 下 : 


root@baisheng:~/demo#t ld -e main -o hellol hello.o fool.o foo2.o 
root@baisheng:~/demo# readelf -S hellol 
There are 8 section headers, starting at offset Oxlbc: 


Section Headers: 
[Nr] Name Type Addr OfFf Size 


[ 0] NULL 00000000 000000 000000 
E 1 wext PROGBITS 08048094 000094 000048 


我 们 看 到 ， 如 采 不 链接 那些 特殊 的 文件 ， 按 照 上 面 的 链接 方法 ， 可 
执行 文件 的 "text" 段 的 大 小 是 0x48 字 节 ， 依 然 不 是 0x46 字 节 ， 为 什么 还 


征 兰 了 2 字 帮 ? 我 们 等 斌 更换 一 下 链接 时 目标 文件 的 次 施 : 


root@baisheng:~/demo# ld -e main -o hello2 fool.o foo2.o hello.o 
root@baisheng:~/demo# readelf -S hello2 
There are 8 section headers, starting at offset Oxilbc: 


Section Headers: 


[Nr] Name Type Addr Of Size 
EE 油 j NULL 00000000 000000 000000 


BB 二 PROGBITS 08048094 000094 000046 


这 光 我 们 看 到 ， 了 最 终 可 执行 文件 ".text" 段 的 尺寸 与 目标 文件 
的 ".text" 段 的 大 寸 和 完全 相同 了 。 为 什么 呢 ? 原因 是 在 32 位 机 右上 ， 包 
括 ".text"、".data" 等 段 有 4 字 节 对 齐 的 要 求 。hello.o 的 ".text" 段 是 0x26， 如 
打 按 照 4 字 节 对 齐 ， 需 要 盾 充 2 字 节 。 而 foo1.o0 和 foo2.o 的 ".text" 段 本 映 长 
度 都 是 4 字 贡 对 齐 的 ， 所 以 在 合并 时 ， 如 采 hello.o 在 前 面 ， 那 么 
其 "text" 段 需要 使 用 0 填充 两 字 攻 ， 使 其 对 齐 到 0x28。 上 所以， 最 
终 ".text" 的 长 度 就 是 0x28+0x10+0x10， 为 0x48 字 节 。 而 如 果 hello 在 最 
后 ， 那 么 合并 后 的 ".text" 的 长 上 度 束 是 0x10+0x10+0x26， 即 0x46 字 市 。 


2. 从 写 午 定位 


链接 时 ， 在 第 一 阶段 完成 后 ， 目 标 文件 已 经 合并 完成 ， 并 且 已 经 为 


符号 分 配 了 运行 时 地 址 ， 链 接 堪 将 进行 符号 重 定位 。 


模块 hello.o 中 有 两 处 需要 重 定位 ， 一 处 是 偏 移 0xb 人 处 的 变量 foo2， 另 
外 一 处 是 偏 移 0x1b 人 处 的 函数 fo02 func。 汇 编 器 已 经 将 这 两 处 需要 重 定位 


的 符 志 记录 在 了 重 定位 和 表 中 。 


root@baisheng:~/demo# readelf -r hello.o 


Relocation section ',rel.text' at offset 0x3c8 contains 2 entries: 
Offset Info Type Sym.Value Sym. Name 
0000000b 00000901 R 386 32 00000000 EoG2 


0000001b 00000a02 R 386 PC32 00000000 Ean DC 


符号 foo2 的 重 定 位 类 型 是 R 386 32，ELF 标 准 规定 的 计算 修订 值 的 


从 
Ss + 


其 中 ，S 表 示 符 号 的 运行 时 地 址 ，A 就 是 汇编 器 填充 在 引用 外 部 符 
号 处 的 Addend。 


符号 foo2 func 的 重 定位 类 型 是 R 386 PC32，ELF 标 准 规定 的 计算 
修订 值 的 公式 是 : 


So + 和 -PP 


其 中 S、A 的 意义 与 前 面 完 全 相同 ，P 为 修订 处 的 运行 时 地 址 或 者 贪 
移 。 对 于 目标 文件 ，P 为 修订 处 在 段 内 的 俩 移 。 对 于 可 执行 文件 和 动态 
库 ，P 为 修订 处 的 运行 时 地 址 。 


首先 我 们 先 来 确定 S$。 运 行 时 地 址 在 链接 时 才 分 配 ， 因 此 ， 变 量 


foo2 和 函数 foo2_func 的 运行 时 地 址 在 链接 后 的 可 执行 文件 hello 的 符号 表 
中 : 


root@baisheng:~/demo# readelf -s hello | grep foo2 


38: VO0V000000 QO FILE LOCAL DEFAULT APBS foo2.c 
D3: O0804a020 4 OBJECT GLOBAL DEFAULT 24 foo2 
68; 08048414 l6 FUNC GLOBAL DEFAULT 13 foo2 func 


可 见 ， 符 号 foo2 的 运行 时 地 址 为 0x0804a020， 符 号 foo2_func 的 运行 


时 地 址 是 0x08048414。 


接 下 来 ， 我 们 再 来 看 看 沪 编 器 为 这 两 个 从 号 填充 的 Addend 是 多 少 。 
我 们 使 用 工具 objdump 反 汇编 hello.o， 其 中 黑体 标识 的 分 别 是 汇编 器 在 
引用 foo2 和 foo2 func 的 地 址 处 填充 的 Addend: 


root@baisheng:~/demo# objdump -Q hello.o 
hello.o: file format elf32-1386 
Disassembly of section .text: 


00000000 <maln>: 


0: 5 push Sebp 
有 89 ee5 moOv Tesp, ebp 
3: 83 ed f0 and SOxfffffff0,$%esp 
6: 83 ec 10 sub S50XxX10,%Yesp 
9 : C7 O05 00 00 00 00 O05 mowl SOXxXS, Ox0 
10: 00 00 00 
13: C7 04 24 32 00 00 00 movl 50x32, ($esp) 
la: e8 fc ff ff ff call lb <main+0xlb> 
下 党 b8 00 00 00 00 mMmOV SOx0, eax 
24: C9 leave 
2 C3 ret 


根据 输出 可 见 ， 汇 编 占 在 引用 符 写 foo2 处 址 元 的 Addend 古 0， 在 引 


用 符号 foo2_func 处 填 元 的 Addend 是 -4。 
于 是 ， 可 执行 文件 hello 中 引用 符号 foo2 的 位 置 的 修订 值 为 : 
S+A= 0x0804a020 + 0 = 0x0804a020 
我 们 反 汇 编 可 执行 文件 hello， 来 验证 一 下 引用 符号 foo2 处 的 值 是 否 
修订 为 我 们 计算 的 这 个 值 : 


root®@baisheng:~/demo# cbjdump -d hello 
hello: file format elf32-1386 


080483dc <malins>: 


80483dc: S55 push $ebp 

80483dd: 89 e5 MOV Sesp, ebp 
80483df: 83 ed LO and SOxfffffff0,$Sesp 
80483e2: 83 ec 10 sub SOxX10, esp 


80483e5: ec7 05 20 a0 04 08 05 mowl SOx5, Ox804a020 
80483ec: 00 00 00 

80483ef: cc7 04 24 32 00 00 00 mowvl SOXxX32, (Sesp) 
80483f6: e8 19 00 00 00 臣 忆 村 半 8048414 


全 上 局 吕 和 Tun 


380483fb: Da 00 00 00 00 mMOV SOXx0 , Teax 
8048400: cc9 leave 

8048401: cc3 ret 

8048402: 66 90 xchoa SaAXx, ax 


注意 偏 移 0x1b 处 ， 确 实 已 经 被 链接 器 修订 为 0x0804a020 了 了 。 


对 于 符号 foo2_func 的 修订 值 ， 还 需要 变量 P， 即 引用 符 写 foo2_func 


处 的 运行 时 地 址 。 根 据 可 执行 文件 hello 的 反 沪 编 代码 可 见 ， 引 用 符号 
foo2_func 的 指令 的 地 址 是 : 


Ox80483f6 + 1 = Ox804837 


所 以 ， 可 执行 文件 hello 中 引用 符号 foo2_func 的 位 置 的 修订 值 为 : 


S++A-P = 0x08048414 + {(-4) - Ox80483f7 = 0x19 


观察 hello 的 反 汇 编 代 码 ， 从 地 址 0x80483f7 开 始 处 的 4 字 节 ， 确 实 也 
己 经 被 链接 器 修订 为 0x19。 


这 里 提醒 一 下 读者 ， 如 果 foo2 func 占 据 的 运行 时 地 址 小 于 main 函 
数 ， 那 么 这 里 foo2_func 与 PC 的 相对 地 址 将 是 负数 。 在 机 器 指令 中 ， 使 
用 的 是 数 的 补 码 形式 ， 所 以 一 定 要 注意， 以 免 造 成 困惑 。 


事实 上 ， 对 于 和 从 写 foo2 使 用 的 重 定 位 类 型 R_386_32， 是 绝对 地 址 重 
定位 ， 链 接 器 只 要 解析 符号 foo2 的 运行 时 地 址 蔡 换 修订 处 即 可 。 而 对 于 
特写 foo2_func， 其 使 用 的 重 定位 类 型 是 R_386_PC32， 这 是 一 个 PC 相对 
地 址 重 定位 。 而 当 执 行当 前 指令 时 ，PC 中 已 经 加 载 了 下 一 条 指令 的 地 
址 ， 并 不 是 当前 指令 的 地 址 ， 这 就 是 在 引用 符号 foo2_func 处 填充 “-4” 的 
原因 。 


我 们 看 到 ， 在 链接 时 ， 链 接 带 在 需要 重 定位 的 符 志 所 在 的 侦 移 处 十 


接 进 行 了 编辑 修订 ， 所 以 人 们 通常 也 将 链接 问 形 象 地 称 为 "link editor"。 


Et 


3. 链 接 静 态 库 


如 果 在 链接 过 程 中 有 静态 库 ， 那 么 链接 是 如 何 进 行 的 呢 ? 静态 库 其 
实 就 是 多 个 目标 文件 的 打包 ， 因 此 ， 与 合并 多 个 目标 文件 并 无 本 质 差 
别 。 但 是 有 一 点 需要 特别 说 明 ， 在 链接 静态 库 时 ， 并 不 是 将 整个 静态 库 
中 包含 的 目标 文件 全 部 复制 一 份 到 最 终 的 可 执行 文件 中 ， 而 是 仅仅 链接 
库 中 使 用 的 目标 文件 。 如 图 2-6 所 示 ， 在 对 可 执行 文件 链接 时 ， 只 使 用 
了 静态 库 中 的 "Object File 2"， 所 以 链接 器 仅 将 "Object File 2" 复 制 了 一 份 
到 可 执行 文件 中 。 


Text Section 


Object File 1 






Data Section 


Text Section 


Data Section 


Object File 






Text Section 
Object File 2 


Data Section 


上 
AO 





Object File n 


加 


Static Library Executable 


图 2-6 链接 静态 库 


我 们 使 用 如 下 命令 先 将 foo1.c 和 foo2.c 编 译 为 静态 库 libfoo.a。 然 后 将 
静态 库 libfoo.a 链 接 到 可 执行 程序 hello。 


root@balisheng:~/demo#t gcc -c fool.c foo2.c 
root@baisheng:~/demo# ar - libfoo.a fool.o foo2.0 
root@baisheng:~/demo# gcc -o hello hello.c libfoo.a 


我 们 来 看 一 下 静态 库 libfoo.a 的 人 符 亏 表 : 


root@baisheng:~/demo# readelf -s libfoo.a 


File: 


Symbol 


Num: 


File: 


Svymbol 


NuUm: 


9 : 


table 


9 TP 


Value 
00000000 
O0000000 
00000000 
00000000 
00000000 
00000000 
O0000000 
00000000 
00000000 
O0000000 


li1bfoo.al(lfool.o) 


! .Symtab'! 


Sl1ZzEe 


| Er 有 有 号 


上 
\ 


li1bfoo.a(lfoo2.o) 


Contains 10 entries: 


Type 
NOTYPE 
FILE 
SECTION 
SECTION 
SECTION 
SECTION 
SECTION 
SECTION 
OBJECT 
FUNC 


Bind 

LOCADL 
LOCADL 
LOCAL 
LOCAL 
LOCAL 
LOCAL 
LOCAL 
LOCAL 


GLOBAL 
GLOBAL 


Vis 

DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 


contains 10 entries: 


table '.syvymtab'’ 

Value Slize Type 
00000000 0 NOTYPE 
00000000 0 FILE 
00000000 0 SECTION 
00000000 0 SECTION 
00000000 0 SECTION 
00000000 0 SECTION 
00000000 0 SECTION 
00000000 0 SECTION 
00000000 4 OBJECT 
00000000 19 FUNC 


Bind Vis 

LOCAL DEFAULT 
LOCAL DEFAULT 
LOCAL DEFAULT 
LOCAL DEFAULT 
LOCAL DEFAULT 
LOCAL DEFAULT 
LOCAL DEFAULT 
LOCAL DEFAULT 
GLOBAL DEFAULT 

GLOBAL DEFAULT 


Name 


i .eo 


fool 
fool fnre 


Name 


foo2.c 


foo2 


1 foo2 func 


我 们 看 到 ， 与 代码 中 完全 吻合 ，libfoo.a 的 符号 表 中 包含 4 个 全 局 符 


号， 


分 别 是 变量 foo1 和 foo2、 函 数 foo1 func 和 foo2 func。 如 果 最 终 创建 


的 可 执行 文件 hello 包 含 了 整个 libfoo.a 的 副本 ， 那 么 hello 的 符号 表 中 也 应 
该 包含 这 4 个 全 局 特写 。 但 是 ， 实 际 上 hello.c 中 仪 使 用 了 目标 文件 foo2.0 
中 的 函数 foo2_func， 所 以 按照 我 们 前 面 的 理论 ，hello 中 应 该 仅仅 包 合 


foo2.o 的 副本 ， 而 不 必 包 侣 没有 使 用 的 foo1.0。 我 们 奏 看 一 下 hello 的 符 扎 
表 : 


root@baisheng:~/demo# readelf -s hello | grep foo 
37: O0000000 0 FILE LOCAL DEFAULT ABS foo2.c 
52: 0804a01c 4 OBJECT GLOBAL DEFAULT 24 foo2 
65: 080483f£0 13 FUNC GLOBAL DEFAULT 13 foo2 func 


以 上 hello 的 符号 表 仪 包含 了 foo2 和 foo2 _fiunc， 显 然 ， 可 执行 文件 
hello 中 确实 没有 包含 目标 文件 foo1.o。 人 至 于 链接 静态 库 中 的 目标 文件 的 
方法 ， 与 我 们 前 面 讨论 的 目标 文件 的 合并 完全 相同 。 


4. 链 接 动态 库 


我 们 知 站 ， 与 静态 库 不 同 ， 动 态 库 不 会 在 可 执行 文件 中 有 任何 副 
本 ， 那 么 为 什么 编 详 链 接 时 依然 需要 指定 动态 库 呢 ? 诛 因 包括 下 面 几 


e@ 
4 e 


1) 动态 加 载 器 需要 知道 可 执行 程序 依赖 的 动态 库 ， 这 样 在 加 载 可 
执行 程序 时 才能 加 载 其 依赖 的 动态 库 。 所 以 ， 在 链接 时 ， 链 接 器 将 根据 
可 执行 程序 引用 的 动态 库 中 的 符号 的 情况 在 dynamic 段 中 记录 可 执行 程 
序 依赖 的 动态 库 。 我 们 使 用 如 下 命令 将 fool.c 和 foo2.c 编 译 为 动态 库 ， 并 
将 hello 链 接 到 动态 库 libfoo.so。 


root@baisheng:~/demo# gcc -shared -fPIC fool.c foo2.c -oOo libfoo.so 
root@baisheng:~/demo# gcc hello.c -o hello -L./ -lfoo 


我 们 来 得 看 hello 中 的 dynamic 段 : 


root@baisheng:~/demo# readelf -d hello | grep Shared 
0xXx00000001 (NEEDED) Shared library: [libfoo.so] 
0x00000001 (NEEDED ) Shared library: [libc.so.6] 


显然 ， 在 dynamic 段 中 ， 记 录 了 了 hello 依赖 的 动态 链接 库 libfoo.so。 


2) 链接 器 需要 在 重 定位 表 中 创建 重 定位 记录 〈Relocation 
Record) ， 这 样 当 动态 链接 器 加 载 hello 时 ， 将 依据 重 定位 记录 重 定位 
hello 引 用 的 这 些 外 部 符号 。 重 定位 记录 存储 在 ELF 文 件 的 重 定位 段 
CRelocation) 中 ，ELF 文 件 中 可 能 有 多 个 段 包含 需要 重 定位 的 符号 ， 所 
以 可 能 会 包含 多 个 重 定位 段 。 以 hello 的 重 定 位 段 为 例 : 


root@baisheng:~/demo# readelf -r hello 


Relocation section '.rel.dyn' at offset 0x3d4 contains 2 entries: 
Offset Irie Type Sym.Value Sym. Name 
08049ffc 00000206 R 386 GLOB DAT 00000000 gmon start 
0804a020 00000905 R 386 COPY 0804a020 Fo 


Relocation section '.rel.plt' at offset 0x3e4 contains 3 entries: 


Offset Info Type Sym.Value Sym. Name 
0804a00c 00000207 R 386 JUMP SLOT 00000000 gmon start 
0804a010 00000307 R 386 JUMP SLOT 00000000 libc start main 


0804a014 00000507 R 386 JUMP SLOT 00000000 ee Te 


根据 输出 可 见 ， 可 执行 文件 hello 包 含 两 个 重 定位 段 ，".rel.dyn" 段 中 
记录 的 是 加 载 时 需要 重 定 位 的 变量 ，".rel.plt" 段 中 记录 的 是 需要 重 定位 
的 函数 。 


因此 ， 虽 然 编 详 时 不 需要 链接 共 胖 库 ， 但 是 可 执行 文件 中 需要 记录 
其 依赖 的 共 圣 库 以 及 加 载 /运行 时 需要 章 定 位 的 条 目 ， 在 加 载 程序 时 ， 


动态 加 载 颖 需要 这 些 信 息 来 完成 加 载 时 重 定 位 。 
最 后 我 们 再 来 关注 一 下 在 hello 中 的 全 局 符号 foo2 和 foo2_func。 


roote@baisheng:~/dqemo# nm hello | grep foo 
0804a020 B foo2 
U fo02 fure 


在 符号 表 中 ， 我 们 看 到 ，foo2_func 是 Undefined 的 ， 这 没 错 ， 因 为 
其 确实 不 在 hello 中 定义 。 但 是 注意 变量 foo2， 理 论 上 它 也 应 该 是 
Undefined 的 ， 但 是 我 们 看 到 其 在 hello 中 是 有 定义 的 ， 而 且 其 还 在 BSS 段 
中 。 换 句 话 说， 虽然 我 们 在 hello 中 没有 定义 一 个 未 初始 化 的 全 局 变量 ， 
但 是 链接 器 却 偷偷 在 hello 中 定义 了 一 个 未 初始 化 的 变量 foo2。 那 么 ， 这 
个 foo2 与 libfoo.so 中 的 全 局 变量 foo2 是 什么 关系 呢 ? 为 什么 编译 器 要 这 样 
做 ? 这 也 是 和 重 定 位 有 关 的 ， 事 实 上 ， 这 种 重 定位 方式 称 为 "Copy 
relocation"， 后 面 我 们 在 讨论 用 户 进 程 的 加 载 时 将 会 进一步 介绍 。 


2.2 ”构建 工具 链 


虽然 构建 的 目标 系统 是 运行 在 IA32 体 系 染 构 上 的 ， 但 是 我 们 不 能 使 
用 秸 主 系统 的 工具 链 ， 人 否则 可 能 会 寻 致 目标 系统 依赖 特 主 系统 。 在 编 详 
程序 时 ， 如 采 使 用 了 香 主 系统 的 链接 部， 那么 链接 大 将 在 特 主 系统 的 文 
件 系统 中 寻找 依赖 的 动 在 库 ， 这 势必 会 导致 目标 系统 中 的 程序 链接 特 主 
系统 的 东 些 库 ， 从 而 导致 目标 系统 依赖 特 主 系统 。 其 二 观 表 现 融 是 程序 
在 编 详 时 可 能 会 顺利 通过 ， 但 是 当 在 目标 系统 中 运行 时 ， 却 可 能 出 现 未 


除了 上 述 的 依赖 问题 处 ， 目 标 系 统 使 用 的 工具 链 的 各 个 组 件 的 版 
， 通 津 不 同 于 答 主 系统 ， 因 此 ， 这 也 要 求 为 目标 系统 构建 一 僚 新 的 工 


本 
上 其 链 。 


但 是 工具 链 在 软件 开 友 中 占据 极其 竺 要 的 位 症 ， 包 括 编译 、 汇 编 、 
链接 等 多 个 组 件 在 内 的 任 一 组 件 的 问题 都 可 能 导致 程序 执行 时 出 现 问 
题 ， 如 执行 效率 低下 ， 项 全 市 来 安全 问题 。 因 此 ， 在 实际 应 用 中 ， 很 多 
时 候 我 们 都 是 百 接 使 用 已 经 构建 好 的 工具 链 ， 这 关 工 具 链 一 般 都 被 广泛 
使 用 ， 所 以 在 茶 种 意义 上 其 正确 性 是 家 实践 检验 过 的 ， 但 是 也 有 缺点 ， 
束 是 没有 针对 上 其 体 的 人 硬件 平台 进行 优化 。 因 此 ， 有 时 我 们 也 会 全 助人 条 些 
辅助 工具 ， 针 对 我 们 的 特定 使 件 ， 进 行 配置 优化 ,“ 半 目 动 ?地 为 目标 系 
统 构建 编译 工具 链 。 


在 现实 中 ， 完 全 手工 构建 工具 链 的 机 会 并 不 多 ， 很 多 时 候 我 们 可 能 
都 是 使 用 别人 已 经 构建 好 的 。 但 是 ， 工 具 链 中 包含 的 组 件 可 以 说 是 除了 
操作 系统 内 核 之 外 的 最 底层 的 系统 软件 ， 无 论 是 对 理解 操作 系统 ， 还 是 
对 开发 程序 来 说 ， 都 有 着 重要 的 意义 。 即 使 永远 不 需 自己 手工 编译 工具 
链 ， 但 是 了 解 工 具 链 的 构建 过 程 ， 也 可 以 帮助 更 高 效 灵活 地 运用 已 有 的 
工具 链 ， 可 以 在 多 个 现成 的 工具 链 中 进行 更 好 的 选择 ， 也 有 助 于 进 
行 “ 半 自动 * 地 构建 工具 链 。 


2.2.1] GNU 工 具 链 组 成 


编译 过 程 分 为 4 个 阶段 ， 分 别 是 : 编译 预 处 理 、 编 译 、 汇 编 以 及 链 
接 。 每 个 阶段 都 涉及 了 若干 工具 ，GNU 将 这 些 工 具 分 别 包含 在 3 个 软件 


包 中 : Binutils、GCC、Glibc。 


仿 Binutils: GNU 将 几 和 是 与 二 进 制 文件 相关 的 工具 ， 都 包括 在 软件 
包 Binutils 中 。Binutils 就 是 Binary utilities 的 简写 ， 其 中 主要 包括 生成 目 
标 文 件 的 汇编 苍 〈as) ， 链 接 目标 文件 的 链接 需 〈ld) 以 及 和 奉 干 处 理 二 
进 制 文件 的 工具 ， 如 objdump、strip 等 。 但 是 也 不 是 Binutils 中 的 所 有 的 
工具 都 是 处 理 二 进 制 文件 的 ， 比 如 处 理 文 本 文件 的 预 编 器 〈cpp) 也 包 


舍 在 其 中 。 


令 GCC: GNU 将 编译 器 包含 在 GCC 中 ， 包 括 C 编 译 器 、C++ 编 译 


研 、Fortran 编 详 右 、Ada 编 译 需 等 。 为 简单 起 见 ， 在 本 章 中 我 们 只 构建 
C/C++ 编译 器 。GCC 中 还 提供 了 C++ 的 局 动 文 件 。 


令 Glibc: C 库 包含 在 Glibc 中 。 除 了 C 库 外 ， 动 态 链接 颖 (dynamic 
loderlinker) 也 包含 在 这 个 包 中 。 另 外 这 个 包 中 还 提供 C 的 局 动 文件 。 
事实 上 ， 有 很 多 C 库 的 实现 ， 比 如 适用 于 Linux 加 面 系统 的 Glibc、 
EGlibc、uClibc; 在 区 入 式 系 统 上 ， 可 以 使 用 EGlibc 或 者 uClibc; 对 于 没 
有 操作 系统 的 系统 ， 也 就 是 所 说 的 freestanding enviroment， 可 以 选择 
newlib、dietlibc， 或 者 根本 就 不 用 C 库 。 


除了 这 三 个 软件 包 外 ， 工 具 链 中 还 需要 包括 内 核 头 文件 。 用 户 空 间 
中 的 很 多 操作 需要 借助 内 核 来 完成 ， 但 是 通常 用 户 程序 不 必 直 接 和 内 核 
打交道 ， 而 是 通过 更 易 用 的 C 库 。C 库 中 的 很 大 一 部 分 函数 是 对 内 核 服 
务 的 封装 。 在 某 种 意义 上 ， 内 核 头 文件 可 以 看 作 是 内 核 与 C 库 之 间 的 协 
议 。 因 此 ， 构 建 C 库 之 前 ， 需 要 首先 在 工具 链 中 安装 内 核 头 文件 。 


2.2.2 ”构建 工具 链 的 过 程 


针对 我 们 的 具体 情况 ， 目 标 系 统 与 特 主 系统 都 是 基于 IA32 体 系 架 构 
的 ， 所 以 一 种 方式 是 利用 牡 主 的 编 详 工具 链 来 构建 一 父 独 立 于 牡 主 系统 
的 目 包 合 的 本 地 编 详 工具 链 : 万 外 一 种 方式 吏 是 构建 一 僚 交 叉 纺 诺 工 具 
健 。 在 本 章 中 ， 我 们 洒 用 交 文 编 详 的 方式 构建 工具 链 ， 主 要 原因 十 : 


4 Linux 的 主要 应 用 的 场景 之 一 是 能 入 式 领域 ， 嵌 入 式 设 备 中 存在 
多 种 不 同 的 体系 架构 ， 受 限于 嵌入 式 设备 的 性 能 和 内 存 等 ， 像 编译 链接 
这 种 工作 都 在 工作 站 或 PC 上 进行 。 因 此 ， 使 用 交叉 编译 的 方法 ， 对 赎 
者 进行 嵌入 式 开发 更 有 益处 。 


全 用 者 ， 及 用 交叉 编译 的 方式 相对 更 有 助 于 读者 理解 链接 过 程 及 
文件 系统 的 组 织 。 所 以 ， 虽 然 我 们 的 循 主 系统 和 目标 系统 都 是 基于 IA32 
的 ， 但 是 我 们 利用 交叉 编译 的 方式 构建 编译 工具 链 。 


如 有 果 读 者 没有 骨 入 式 开 发 的 相关 经 验 ， 也 不 必 担 心 ， 交 叉 编译 与 本 
地 编 详 本 质 上 并 无 区 别 。 区 文 编 详 束 是 在 目标 机 融 与 箱 主 机 硕 体 系 结构 
不 同时 使 用 的 编译 方法 。 无 论 是 本 地 编译 还 是 交叉 编译 ， 工 具 链 的 各 个 
组 件 均 是 运行 在 工作 站 或 者 PC 上 ， 只 不 过 对 于 本 地 编译， 我 们 编 详 出 
的 程序 运行 在 本 地 系统 上 ， 或 者 全 少 是 运行 在 与 窒 主 系统 相同 的 体系 染 
构 的 机 器 上 。 而 对 于 交叉 编译 ， 编 译 出 的 程序 是 运行 在 目标 机 左上 的 。 


如 图 2-7 所 示 ， 如 采 目 标 机 器 与 窒 主 系统 相同 均 为 I[A32 架 构 ， 那 么 
就 使 用 宿主 机 器 上 的 本 地 编译 工具 链 ， 编 译 出 的 二 进 制 代 码 对 应 的 也 是 
IA 架 构 的 指令 。 如 果 目 标 机 器 是 其 他 的 体系 结构 的 ， 比 如 ARM， 那 么 
就 需要 使 用 痊 主 系统 上 的 交叉 编译 工具 链 ， 编 译 出 的 二 进 制 代码 对 应 的 
也 是 目标 体系 架构 的 指令 ， 如 ARM 指 令 


Build/Host 


Cross-compilling 
toolchain 





| IA32 binary | | :| ARM binary | Target 
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图 2-7 本 地 编译 和 交叉 编译 


GNU 将 编 详 禾 和 C 库 分 开放 在 两 个 软件 包 里 ， 好 处 是 比较 灵活 ， 在 
工具 链 中 可 以 选择 不 同 的 C 库 ， 比 如 Glibc、uClibc 等 。 但 是 ， 也 带 来 了 
编 详 右 和 C 库 的 循环 依赖 问题 : 编 详 C 库 需要 C 编 详 锅 ， 但 是 C 编 详 其 也 
依赖 C 库 。 虽 然 理 论 上 编译 器 不 应 该 依赖 C 库 ，C 编 译 器 只 负责 将 源 代 码 
翻译 为 汇编 代码 ， 但 是 事实 并 非 如 此 : 


仿 C 编 详 如 十 要 知道 C 库 的 菜 些 特性 ， 以 此 来 决定 支持 哪些 特性 。 
所 以 ， 为 了 支持 某 些 特性 ，C 编 译 器 依赖 C 库 的 头 文件 。 


争 C++ 的 库 和 编 详 卓 需要 C 库 文 持 ， 比 如 弄 常 处 理 部 分 和 栈 回 渭 部 


令 GCC 不 仪 包含 编 详 副 ， 人 还 包谷 一 些 库 ， 这 些 库 退 第 依赖 C 库 。 


4 C 编 译 器 本 身 也 会 使 用 C 库 的 一 些 函 数 。 


一 一 人 


但 是 ， 圣 运 的 是 ，C99 标 准 定 义 了 两 种 运行 环境 ， 一 种 是 "hosted 
environment"， 针 对 的 是 具有 操作 系统 的 环境 ， 程 序 一 般 是 运行 在 操作 
系统 之 上 的 ， 因 此 这 个 操作 系统 不 仅 是 内 核 ， 还 包括 外 围 的 C 库 ， 对 于 
程序 来 说 ， 就 是 一 个 "hosted environment"。 另 外 一 种 是 "freestanding 
environment"， 了 束 是 程序 不 需要 额外 环境 的 文 持 ， 直 接 运 行 在 裸 机 (bare 
metal) 上， 比如 Linux 内 核 ， 以 及 一 些 运行 在 没有 操作 系统 的 裸 板 上 的 
程序 ， 不 再 依赖 操作 系统 内 核 和 C 库 ， 所 有 的 功能 都 在 单个 程序 的 内 部 
实现 。 


针对 这 两 种 运行 环境 ，C99 标 准 分 别 定义 了 两 种 实现 : 一 种 称 
为 "hosted implementation"， 文 持 完 整 的 C 标 准 ， 包 括 语 言 标准 以 及 库 标 
准 ; 另外 一 种 是 "freestanding implementation"， 这 种 实现 方式 支持 完整 
的 语言 标准 ， 但 是 只 要 求 文 持 部 分 库 标 准 。C99 标 准 要 求 "hosted 


implementation" 文 持 "freestanding implementation"， 通 第 是 通过 回 编 详 需 


传递 参数 来 控制 编 详 大 采用 哪 种 方式 进行 编 详 。 


通常 "hosted implementation" 的 实现 包含 编译 器 (比如 GCC) 和 C 库 
(比如 Glibc) 。 而 "freestanding implementation" 的 实现 通常 只 包含 编译 
艇 ， 如 GCC， 了 最 多 册 加 上 一 个 简单 的 库 ， 比 如 和 典型 的 newlib。 但 是 如 末 
没有 newlib 的 支持 ，GCC 自 己 也 可 以 自给 自足 。 


"freestanding implementation" 的 实现 ， 恰 恰 解 决 了 我 们 提 到 的 GCC 
和 Glibc 的 循环 依赖 问题 。 我 们 可 以 先 编译 一 个 仅 文 持 "freestanding 
implementation" 的 GCC， 因 为 在 这 种 情况 下 ， 不 需要 C 库 的 文 持 。 但 
是 "freestanding implementation" 的 GCC 却 可 以 编译 Glibc， 因 为 Glibc 也 是 
一 个 目 包 售 的 ， 完 全 自给 目 足 。 事 实 上 ，Glibc 中 也 有 小 部 分 地 方 使 用 
了 GCC 的 代码 ， 但 是 这 不 会 市 来 依赖 的 麻 虎 ， 因 为 GCC 一 定 是 在 Glibc 
之 六 编 详 的 。 


在 编 详 目标 系统 的 C 库 ， 甚 全 是 编 详 GCC 中 包含 的 目标 系统 上 的 库 
时 ， 都 需要 链接 器 ， 因 此 ，Binutils 是 编译 医 和 C 库 共同 依赖 的 。 索 性 
Binutils 几 乎 没有 任何 依赖 ， 只 需要 利用 牡 主 系统 的 工具 链 构建 一 僚 交 又 
BinutilsBl] 9] 。 


另外 值得 一 提 的 是 内 核 头 文件 。 在 Linux 系 统 上 ， 在 编译 C 库 六 需要 
安 闭 目标 系统 的 内 核 头 文件 ， 从 茶 种 意义 上 讲 ， 内 核 头 文件 承 是 C 库 和 
内 核 之 间 的 一 个 协议 〈Protocol) 。 而 且 ，C 库 会 根据 内 核 头 文件 检查 内 


核 提 供 了 哪些 特性 ， 以 及 需要 在 C 库 层面 模拟 哪些 内 核 没有 提供 的 服 


务 。 


综 上 所 述 ， 我 们 可 以 按照 如 下 步 又 构建 工具 链 : 

1) 构建 交叉 Binutils， 包 括 汇编 右 as、 链 接 堪 1d 等 。 

2) 构建 临时 的 交叉 编译 器 〈 仅 文 持 freestanding) 。 

3) 安装 目标 系统 的 内 核 头 文件 。 

4) 构建 日 标 系 统 的 C 库 。 

5) 构建 完整 的 交叉 编译 器 (支持 hosted 和 freestanding) 。 


最 后 提醒 读者 注意 一 点 ， 上 面 的 目标 平台 也 是 IA32 的 ， 并 且 使 用 的 
C 库 是 Glibc。 如 果 是 其 他 平台 的 ， 或 者 是 用 了 不 同 的 C 库 ， 编 译 过 程 可 
能 会 略 有 差异 ， 比 如 为 了 使 最 终 编译 C 库 的 编译 器 具有 更 多 的 特性 ， 有 
的 编译 过 程 将 使 用 freestanding 编 译 器 编译 一 个 简化 版 的 hosted 编 译 器 ， 
然后 用 这 个 hosted 的 GCC 再 编译 Glibc 等 。 但 是 ， 无 论 如 何 ， 交 叉 编 译 的 
关键 还 是 构建 freestanding 的 编译 器 。freestanding 的 编译 器 解决 了 鸡 和 和 蛋 
的 问题 〈 即 GCC 和 Glibc 的 循环 依赖 )》， 一 旦 解决 了 鸡 和 和 蛋 的 问题 后 ， 
其 他 的 问题 就 都 迎刃而解 。 


2.2.3 ”准备 工作 


1. 新 建 普通 用 户 vita 


为 了 人 避免 误 操 作 给 答 主 系统 向 来 灾难 性 的 后 果 ， 在 编译 过 程 中 我 们 
使 用 普通 用 户 ， 训 人 免 不 小 心 使 用 新 编译 的 某 些 库 堆 六 答 主 系统 的 库 。 我 
们 新 建 一 个 普通 用 户 vital: 


root@Dbaisheng:~# groupadd wita 
root@baisheng:~# useradd -m -ss /bin/bash -g vita vita 


我 们 还 要 新 建 一 个 组 vita， 有 用户 vita 属 于 这 个 组 。 参 数 "-m" 表 示 创 建 
vita 用 户 的 属 主 目 录 ， 默 认 是 home/vita; "-s/bin/bash" 表 示 使 用 bash 
shell; "-g vita" 表 示 将 vita 加 入 组 vita。 


在 荣 些 情况 下 ， 我 们 可 能 需要 使 用 vita 执 行 一 些 超级 用 户 才 有 权限 
执行 的 命令 ， 因 此 ， 我 们 让 vita 成 为 sudoers， 在 /etc/sudoers.d 目 录 下 添加 
一 个 文件 vita， 其 内 容 如 下 : 


vita ALL= (ALL}) NOPASSWD: ALL 
2. 建 立 工 作 目 录 


为 了 便于 管理 ， 我 们 需要 建立 一 个 工作 目录 ， 这 个 目录 可 以 建立 在 


任 一 目录 下 。 笔 者 使 用 了 一 个 单独 的 分 区 ， 并 且 挂 载 在 /vita 目 录 下 。 在 
该 目录 下 ， 建 立 相 应 的 工作 目录 的 方法 如 下 : 


root@baisheng:/vita# mkdir source build cross-tool  N 
Cross-gcc-tmp sysroot 
root@baisheng:/vita# chown -R vita.vita /vita 


其 中 ，source 目 录 中 存放 的 是 源 代 人 码 ; build 目 录用 作 编 详 ; cross- 
tools 目 录 保 存 交 义 编译 工具 。 因 为 在 整个 编译 过 程 中 ， 编 译 器 将 个 编译 
两 次 ， 所 以 cross-gcc-tmp 用 来 保存 临时 的 freestanding 编 译 器 ， 避 免 这 个 
临时 的 freestanding 纺 详 带 污染 最 后 的 工具 链 。 编 详 好 的 目标 机 需 上 的 文 
件 安 装 在 sysroot 目 录 下 ，sysroot 日 录 相 当 于 目标 系统 的 根 文件 系统 。 为 
外 ， 我 们 使 用 chown 更 改 这 些 目 录 的 属 主 和 属 组 ， 使 vita 用 户 有 权限 使 用 
这 些 目录 及 目录 下 的 文件 。 


3. 定 义 环 声 变 量 


为 了 人 徐 化 编译 过 程 中 的 一 些 命 令 ， 我 们 需要 定义 一 些 环境 变量 。 同 
时 为 了 避免 每 次 切换 到 vita 用 户 时 ， 都 需要 手动 重新 定义 ， 我 们 将 其 定 
义 在 home/vita/.bashrc 中 。 


unset LANG 

export HOST=1686-pPpC-1inux-gnu 
export BUILD=S$HOST 

export TARGET=1686-none-l1inux-gnu 
export CROSS TOOL=/vita/cross-tool 


export CROSS GCC TMP=/vita/cross-gcc-tmp 
export SYSROOT=/vita/sysroot 
PATH=$CROSS TOOL/bin:s$CROSS GCC TMP/bin:/sbin:/usr/sbin:s$PATH 


如 果 使 用 的 是 中 文 环境 的 操作 系统 ， 那 么 为 了 避免 不 必要 的 麻烦 ， 
要 在 环境 中 将 其 设置 英文 环境 ， 即 上 而 的 unset LANG， 因 为 ， 在 中 文 环 
境 下 ， 有 些 工 具 ， 比 如 readelf， 在 输出 ELF 文 件 的 信息 时 ， 多 此 一 举 地 
将 很 多 英文 翻译 为 了 中 文 ， 可 能 给 有 些 脚 本 处 理工 具 带 来 一 些 麻烦 。 


为 了 使 后 面 的 构建 过 程 可 以 找到 的 交叉 编译 工具 ， 我 们 将 安装 交叉 
编译 工具 的 目录 添加 到 环境 变量 PATH 中 ， 包 括 临时 的 GCC 存储 的 目 
录 。 注 意 一 点 ， 临 时 的 GCC 存储 的 目录 一 定 要 在 最 终 正 式 的 工具 链 目 录 
的 后 面 ， 确 保安 装 最 终 的 交叉 编译 器 后 ， 在 编译 时 将 优先 使 用 最 终 的 交 


又 编译 器 。 


Binutils、GCC 以 及 Glibc 的 配置 脚本 中 均 包 售 三 个 配置 参数 : 
HOST、BUILD 和 TARGET， 这 三 个 配置 参数 的 值 均 是 大 致 形 如 ARCH- 
VENDOR-OS 三 元 组 的 组 合 。 在 编译 前 ， 可 以 通过 配置 选项 设 定 这 几 个 
参数 的 值 。 如 果 配 置 时 不 显示 指定 这 几 个 参数 ， 编 译 脚 本 将 自动 探测 编 


译 所 在 的 机 占 的 相关 值 。 


读者 可 以 通过 查看 变量 MACHTYPE， 或 者 查看 编译 时 配置 过 程 的 
结果 ， 确 定 机 上 寓 的 三 元 组 。 以 笔者 的 机 可 为 例 ， 访 值 为 686-pc-linux- 
gnu， 表 示 机 器 的 CPU 型 号 为 686，vendor 为 none， 操 作 系 统 为 linux- 


gnuo 


root@balsheng:~# echo SMACHTYPE 
1686-DE-11inux-gnu 
如 来 HOST 的 值 和 TARGET 的 值 相同 ， 那 么 编译 脚本 束 构 建 本 地 编 

译 工 具 。 只 有 当 HOST 和 TARGET 的 值 不 同时 ， 编 译 脚本 才 构 建交 叉 编 
译 工 具 。 因 此 ， 虽 然 目 标 平 台 也 是 x86 架 构 的 ， 但 是 为 了 使 用 交叉 编译 
的 方式 ， 我 们 在 配置 时 故意 显示 设置 TARGET 参 数 为 i686-none-linux- 
gsnu， 如 此 ，TARGET 惑 会 与 编 详 脚本 目 行 检测 到 的 HOST (对 于 笔者 的 
机 器 来 说 ， 即 i686-pc-linux-gnu) 不 同 ， 从 而 构建 交叉 编译 工具 。 读 者 
可 根据 自己 的 有 具体 环境 进行 调整 ， 总 之 ， 要 使 TARGET 与 HOST 不 同 。 
为 了 方便 在 编 详 时 设置 配置 参数 ， 因 此 我 们 定义 了 环境 变量 BUILD、 
HOST 和 TARGET。 


4. 切 换 到 vita 用 户 


准备 工作 完成 后 ， 我 们 使 用 如 下 命令 切换 到 vita 用 户 : 


root@balilsheng:~# Su - Vita 


注意 ， 这 里 我 们 切换 到 vita 用 尸 使 用 的 是 "su-" 而 不 是 "su"。 后 者 只 
是 切换 了 里 份 ，shell 的 环境 仍然 是 原 用 户 的 shell 环 境 ， 而 前 者 将 shell 环 
境 也 切换 到 了 vita。 


2.2.4 构建 二 进 制 工具 


Binutils 包 含 各 种 用 来 操作 二 进 制 目标 文件 的 工具 ， 其 中 包括 GNU 
六 编 右 as 和 链接 如 ld， 处 理 静 态 库 的 工具 ar 和 ranlib， 系 统 程序 员 和 常用 的 


objdump、readelf、nm、strings、stip 等 。 
Binutils 推 存 使 用 单独 的 目录 进行 编 详 : 


vita@baisheng:/vita/builds tar xvf 、 

.. /SOUrce/binutils-2.23.,.1.tar.,.bz2 
vita@baisheng:/vita/builds mkdir binutils-build 
vita@baisheng:/vita/builds cd binutils-build 
vita@baisheng:/vita/build/binutils-builds 

.. /binutils-2.23.1/confiqure \ 

--prefix=$CROSS TOOL --target=$TARGET \\ 

--With-syvsroot=$S3SYSROOT 


下 面 介绍 各 个 配置 参数 的 音义 。 


仿 --prefix=$CROSS_TOOL: 通过 参数 --prefix 指 定安 装 脚本 将 编译 
好 的 二 进 制 工具 安装 到 保存 交叉 编译 工具 链 的 $CROSS_TOOL 目录 下 。 


S --target=$TARGET: 因为 没有 显示 指定 参数 --host 和 --build， 所 
以 编译 脚本 将 自动 探测 HOST 和 BUILD 的 值 。 对 于 笔者 的 机 器 来 说 ， 探 
测 到 的 HOST 和 BUILD 值 相同 ， 都 为 686-pc-linux-gnu。 在 前 耐 设置 环境 
变量 时 ， 我 们 故意 将 环境 变量 TARGET 的 值 设 置 i686-none-linux-gnu， 


与 HOST 自动 探测 的 值 不 同 ， 因 此 ， 编 译 脚 本 据 此 判断 这 是 在 构建 交叉 
编 详 工具 链 ， 继 而 将 指导 宿主 系统 的 工具 链 编译 “运行 在 本 机 ， 但 是 最 
后 编译 链接 的 程序 / 库 是 运行 在 $TARGET 上 ”的 交叉 二 进 制 工具 


9 --with-sysroot=$SYSROOT: 我 们 通过 参数 --with-sysroot 告 诉 链接 
项 ， 目 标 系 统 的 根 文件 系统 放置 在 $SYSROOT 目 录 下 ， 链 接 时 到 
$SYSROOT 目 录 下 寻找 相关 的 库 。 


配置 完成 后 ， 使 用 如 下 命令 编 详 并 安 靖 


vitag@baisheng:/vita/build/binutils-builds make 
vita@baisheng:/vita/build/binutils-builds make install 


Binutils 将 二 进 制 工具 安装 在 $CROSS TOOL/bin 目 录 下 ， 这 里 不 浪 
费 扁 幅 一 一 列举 各 个 工具 的 具体 功能 了 ， 计 者 可 以 使 用 man 进 行 查 看 。 


除了 安装 二 进 制 工具 外 ，Binutils 还 安装 了 链接 脚本 ， 安 装 目录 是 : 
SCROSS TOOL/i686-none-linux-gnu/lib/ldscripts 


其 中 elf i386.x 用 于 IA32 上 ELF 文 件 的 链接 ，elf_ i386.xbn、 
elf_i386.xc 等 分 别 对 应 ld 使 用 不 同 的 链接 参数 时 使 用 的 链接 脚本 ， 如 果 
使 用 了 "-N" 参 数 ， 那 么 ld 使 用 链接 脚本 elf_i386.xbn。 


Binutils 在 $CROSS_TOOL/i686-none-linux-gnu/bin 目 录 下 也 安装 了 一 
些 二 进 制 工 具 ， 这 些 是 编译 颖 内 部 使 用 的 ， 我 们 不 必 关 心 ， 其 实 这 个 目 
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2.2.5 ”编译 freestanding 的 交叉 编译 器 


下 如 我 们 前 面 讨论 的 ， 因 为 编译 融和 C 库 之 则 循环 依赖 的 问题 ， 我 
们 需要 找到 一 个 办 法 解雇 这 个 鸡 和 香 的 问题 。 竺 运 的 是 ，C 编 详 问 提供 
了 一 个 freestanding 的 实现 ， 即 一 个 不 依赖 C 库 的 编译 需 。 那 么 如 何 编译 


一 个 freestanding 的 编 详 右 呢 ? 


GCC 提供 了 一 个 编译 选项 --with-newlib。 这 是 一 个 让 人 困惑 的 C 库 
参数 ， 因 为 newlib 本 续 就 是 一 父 C 库 的 实现 ， 所 以 容易 让 人 误解 为 工具 
链 中 使 用 的 C 库 是 newlib， 而 不 是 其 他 的 C 库 。 事 实 上 ， 在 构建 交叉 编 详 
器 时 ， 其 有 着 特殊 的 意义 ， 文 件 configure.ac 中 的 注释 解释 得 很 清楚 。 


本 CGOCCCOnEGOEG EC 


# If this 1is a Cross-Ccomp1LI1Lez that does not 
# have its own set of headers then define 
TNLDat Libe 


站 


# If this is using newlib, without having the headers available now, 
# then define inhibit libc in LIBGCC2 CFLAGS. 

# This prevents libgcc2 from containing any code which requires libc 
# support. 


: ${inhibit libc=false} 
if { { test x$host != x$target && test "x$with sysroot" = x ; } || 
test x$with newlib = xyes ; } && 
{ test "x$with headers" = x || test "x$with headers" = xno ;  :; 
then 


inhibit libc=true 
fi 


注释 中 说 明 ， 在 构建 交叉 编译 器 且 尚 未 安装 C 库 头 文件 的 情况 下 ， 
需要 定义 变量 inhibit_libc。 一 旦 定义 了 该 变量 ， 将 去 挥 libgcc 库 中 对 C 库 


的 一 切 依赖 ， 转 而 使 用 GCC 内 部 的 实现 。 如 下 面 的 代码 亡 段 : 


Gcc-4.7.2/libgcc/crtstuff.ce:; 


#if defined (OBJECT FORMAT ELF) 、 
&& ldefined (OBJECT FORMAT FLAT) 、\ 
&& defined (HAVE LD EH FRAME HDR) \ 
&& ldefined (inhibit libc) && !defmned (CRTSTUFFT O) 、 
xc& defined{ FreeBsD ) && FreeBsD >= 7 
t#include <link.h> 
# define USE PT GNU EH FRAME 
Ht#endif 


我 们 看 到 ， 如 果 没 有 定义 inhibit_ libc， 则 libgcc 库 中 可 能 会 包含 
link.h， 而 这 恰恰 是 glibc 提 供 的 头 文件 。 


换 名 话说， 我 们 可 以 通过 将 变量 inhibit_ libc 赋 值 为 true， 人 告诉 GCC 
编译 为 freestanding 实 现 。 但 是 ， 遗 憾 的 是 ，GCC 并 没有 骏 露 一 个 直观 的 
配置 选项 供 配置 时 设置 这 个 变量 ， 相 反 需 要 通过 另外 相关 的 变量 来 控制 
变量 inhibit_libc 的 值 。 


再 次 回顾 文件 gcc-4.7.2/gcc/configure.ac 中 的 关于 定义 inhibit_libc 的 
条 件 语 句 部 分 ，f 中 的 条 件 如 下 : 


1) 如 果 是 交叉 编译 且 未 设置 --with-sysroot， 或 者 设置 了 --with- 


newlib。 


2) 没有 设置 --with-headers。 


对 于 条 件 1) ， 因 为 我 们 使 用 了 sysroot 的 方式 ， 所 以 要 满足 第 
条 件 ， 就 需要 设置 --with-newlib。 对 于 条 件 2) ， 因 为 我 们 没有 指定 头 文 
件 ， 所 以 目 然 成 立 。 


看 了 前 面 的 讨论 ， 相 信 读 者 就 比较 清楚 --with-newlib 的 意义 了 ， 使 
用 --with-newlib 并 不 是 强行 指定 GCC 使 用 newlib 实 现 的 C 库 。 我 们 无 从 考 
究 参 数 --with-newlib 的 出 处 ， 但 是 因为 newlib 的 初衷 就 是 作为 freestanding 
环境 中 的 C 库 ， 或 许 这 个 参数 的 名 称 来 源 于 此 。 


下 面 ， 我 们 开始 编译 用 于 freestanding 环 境 的 gcc 编 译 器 ， 首 先 解 开 
源 个 包 : 


vita@balsheng: /vita/builds tar xvf ../source/gcc-4.7.2.,tar.bz2 


GCC 依赖 包括 浮 点 计算 、 复 数 计 算 的 几 个 数学 库 GMP、MPEFR 和 
MPC。 可 以 先 单 独 编译 这 些 库 ， 然 后 通过 GCC 的 配置 选项 如 --with- 
mpc、--with-mpfr、--with-gmp 告 知 GCC 这 几 个 库 的 位 置 。 也 可 以 将 这 几 
个 库 的 源码 解压 到 GCC 的 源码 日 录 下 ， 在 编译 时 ，GCC 会 自动 探测 并 编 
译 。 这 里 我 们 采用 后 者 ; 


vita@baisheng:/vita/build/gcc-4.7.2$ tar xvf \ 
-sRourcerqmp”-D ODitarDz2 
vita@baisheng:/vita/build/gcc-4.7.2$ mv gmp-5.0.5/ gmp 
vitanmbalsheng:/vita/build/qcc=4717329 tar wvE “ 
3 
vita@baisheng:/vita/build/gcc-4.7.2$ mv mpfr-3.1.1/ mpfr 
vita@balsheng: /vita/build/gqcc>4.7.28 tar vf \ 
natBoureeme- LOvi taryo 
vita@baisheng:/vita/build/gcc-4.7.2$ mv mpc-1.0.1/ mpc 


GCC 要 求 在 单独 的 目录 编译 ， 因 此 我 们 创建 编译 目录 gcc-build， 配 
置 如 下 : 


vita@baisheng:/vita/builds$ mkdir gcc-build 
vita@baisheng:/vita/builds$ cd gcc-build 
vita@baisheng:/vita/build/gcc-builds ../gcc-4.7.2/configure \ 
-~-prefix=$CROSS GCC TMP --target=$TARGET \ 
--Wwith-sysroot=$SYSROOT \ 
--with-newlib --enable-languages=c \ 
--wWwith-mpfr-include=/vita/build/gcc-4.7.2/mpfr/src \ 
--with-mpfr-lib=/vita/build/gcc-build/mpfr/src/.libs \ 
--disable-shared --disable-threads \ 
--disable-decimal-float --disable-libquadmath \ 
--disable-libmudflap --disable-libgomp \ 
--disable-nls --disable-libssp 


下 面 介绍 各 个 配置 参数 的 意义 。 


全 --prefix=$CROSS_GCC_TMP: freestanding 的 GCC 与 最 终 的 
hosted 的 GCC 还 是 有 些 和 大 别 时 ， 这 里 的 freestanding 的 GCC 只 是 一 个 临时 
的 GCC， 并 不 会 用 作 最 终 的 交叉 编译 颖 。 有 所以， 为 了 避免 污染 最 后 的 工 
具 链 ， 这 里 将 freestanding 的 GCC 安 装 在 一 个 临时 的 目录 


$CROSS GCC _ TMP 中。 


仿 --target=$TARGET: 与 在 Binutils 中 指定 参数 --target 同 样 的 道 
理 ， 告 诉 编译 脚本 构建 的 预 处 理 器 、 编 译 器 等 是 运行 在 本 机 上 的 ， 但 是 
最 后 编译 的 程序 或 库 古 运行 在 目标 体系 结构 $TARGET 上 的 ， 即 构建 交 


义 编译 锋 。 


人 --with-sysroot=$SYSROOT: 配置 参数 --with-sysroot 知 诉 GCC 目 


标 系 统 的 根 文件 系统 存放 在 $SYSROOT 目 录 下 ， 编 译 时 到 $SYSROOT 目 
录 下 和 查找 目标 系统 的 头 文 件 以 及 库 。 


仿 --enable-languages=c: 编译 C 库 只 需要 C 编 详 磋 ， 所 以 这 个 临时 的 
freestanding 编 译 硕 只 文 持 C 编 译 右 。 而 且 像 C++ 编 译 融 ， 即 使 想 编 译 也 
征 有 心 无 力 ， 因 为 其 依赖 目标 系统 的 C 库 ， 上 所 以 目前 也 没有 条 件 进行 编 


ps 


全 --disable-shared: 际 了 编译 如 外 ， 软 件 包 GCC 中 也 包含 有 一 个 运 
行 时 库 Jibgcc。 该 库 主要 包括 一 些 目 标 处 理 器 不 支持 的 数学 运算 、 异 常 
处 理 ， 以 及 一 些小 的 比较 复杂 的 便利 函数 。 在 默认 情况 下 ， 会 既 编 译 
libgcc 的 静态 库 版 本 ， 也 编译 动态 库 版 本 。 但 是 动态 库 与 静态 库 不 同 ， 
加 载 器 在 加 载 动态 库 后 需要 进行 一 些 初 始 化 ， 比 如 初始 化 变量 ， 而 这 些 
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相关 的 代码 是 在 C 库 的 启动 文件 中 实现 的 ， 包 括 crt1.o、crti.o 等 ， 因 此 ， 
编译 libgcc 的 动态 版 本 时 将 会 链接 启动 文件 。 但 是 此 时 目标 机 器 的 C 库 尚 
未 编译 ， 链 接 将 发 生 类 似 “ 找 不 到 crt1.o 文 件 ” 的 错误 。 因 此 ， 这 里 通过 配 
置 选项 --disable-shared 告 诉 编 译 脚 本 不 要 编译 libgcc 的 动态 库 ， 仪 编 详 并 


仿 --with-mpfr-include 和 --with-mpfr-lib: 对 于 MPFR 这 个 库 ， 其 日 录 
结构 与 GCC 的 默认 设 定 有 一 些 差 异 ， 因 此 我 们 需要 明确 指定 ， 含 则 编译 
时 会 报 找 不 到 ]ibmpf 人 fr 的 错误 。 这 就是 配置 时 指定 配置 选项 --with-mpfr- 
include 和 --with-mpfr-lib 的 原因 。 


另外 我 们 还 通过 形 如 --disable-xxx 这 样 的 参数 禁止 了 一 些 库 的 纺 
译 ， 也 关闭 了 编译 器 的 一 些 特性 ， 因 为 目前 这 个 freestanding 的 交叉 编译 
器 根本 不 需要 这 些 特性 ， 我 们 只 需要 一 个 基本 的 能 够 将 C 库 中 的 代码 番 
译 为 目标 机 器 的 指令 这 样 一 个 基本 的 编译 器 即 可 。 而 且 ， 最 重要 的 是 ， 
某 些 库 和 特性 中 可 能 会 依赖 C 库 ， 因 此 ， 临 时 的 freestanding 编 译 器 不 支 
持 不 必要 的 特性 ， 也 不 编译 不 必要 的 库 。 


纺 详 完成 后 ， 使 用 如 下 命令 进行 安 儿 : 


vita@baisheng:/vita/build/gcc-builds make 
vita@baisheng:/vita/build/gcc-builds make install 


在 使 用 --disable-shared 禁 止 编译 libgcc 的 动态 库 后 ，GCC 的 编译 脚本 
将 不 再 编 详 库 libgcc_eh.a。 但 是 后 面 编 详 Glibc 时 ，Glibc 将 链接 
libgcc_eh.a，Glibc 的 Thread cancellation 使 用 了 GCC 中 的 异 第 处 理 部 分 的 
实现 ， 这 里 eh 束 是 exception handling 的 缩写 。 我 们 可 以 直接 修改 Glibc 中 
的 Makeconfig 文 件 ， 或 者 通过 建 一 个 指 同 libgcc.a 的 符 亏 链接 libgcc_eh.a 
来 解决 这 个 问题 。 因 为 libgcc.a 中 包含 libgcc_eh.a 所 包含 的 全 部 内 容 。 我 
们 采用 后 者 来 解决 这 个 问题 。 


vita@baisheng:/vita/cross-gcc-tmps ln -s libgcc.a 
lib/gcc/1i1686-none-linux-gnu/4.7.2/libgcc eh.a 


2.2.6” 安 淑 内核 尖 文 件 


应 用 程序 很 少 耳 接 通 过 内 核 提 供 的 接口 使 用 内 核 握 供 的 服务 ， 而 通 
常 都 是 用 C 库 使 用 内 核 提 供 的 服务 。C 库 的 主要 内 容 之 一 是 对 内 核 服务 
的 封 泪 。 以 系统 调用 _exit 为 例 : 


glibc-2.15/sysdeps/unix/sysv/linux/i386/ exit.,S : 
exit: 
movl 4(%esp), %ebx 


/* TY the new syscall first. */ 
#ifdef NR exit group 


movl $5 NR exit group, %eax 
ENTER KERNEL 
#endif 


/* Not available. Now the old one. */ 

movl $5 NR exit, %eax 

/* Don't bother using ENTER KERNEL here. If the exit group 
syscall is not available AT SYSINEO isn't either. */ 

int S$0Ox80 


Glibc 中 使 用 的 系统 调用 号 ”NR_exit_group 和 ”NR_exit 都 是 在 内 核 
中 定义 的 。 因 此 ， 在 编译 目标 系统 的 C 库 之 前 ， 我 们 首先 需要 安装 内 核 
头 文 件 。 


自 完 解压 内 核 源 码 ， 并 清理 内 核 。 


vita@balsheng:/vita/builds tar xvf ../source/linux-3.7.4.tar.xz 
vita@baisheng:/vita/build/linux-3.7.4$ make mrproper 


我 们 可 以 通过 变量 ARCH 指 出 目标 系统 的 架构 ， 在 默认 情况 下 ， 
make 将 自动 探测 宿主 系统 的 架构 ， 并 认为 目标 系统 的 架构 与 宿主 系统 的 
架构 相同 。 对 于 IA32 来 说 ， 其 ARCH 值 是 i386。 另 外 ， 在 安装 前 ， 还 需 
要 对 内 核 头 文件 进行 一 些 合法 化 检查 。 


vita@baisheng:/vita/build/linux-3.7.4$ make RARCH=1386 NA 
headers check 


vita@baisheng:/vita/build/linux-3.7.4$ make RARCH=1386 N、\ 
INSTALL HDR PATH=$SYSROOT/usr/headers install 


完成 安 厂 后 ， 我 们 可 以 看 到 的 内 核定 义 的 系统 调用 号 在 文件 
unistd_32.h 中 。Gjlibc 惑 可 以 包含 该 头 文 件 ， 并 使 用 诸如 _NR_exit 等 安 


/vita/sysroot/usr/include/asm/unistd 32 .hn : 


Hdefine NR restart syscall 0 
Hdefine NR exit 1 
Hdefine NR fork 2 
Hdefine NR read 3 


Hdefine NR exit group 252 


2.2.7 ”编译 日 标 系 统 的 C 库 


作为 Linux 操 作 系 统 中 最 底层 的 API， 几 乎 运行 于 Linux 操 作 系 统 上 
的 任何 程序 都 会 依赖 于 C 库 。Glibc 除 了 封装 Linux 内 核 所 提供 的 系统 服 
务 外 ， 也 提供 了 C 标 准 规定 的 必要 功能 的 实现 ， 如 字符 串 处 理 、 数 学 计 


大 与 大 
算 等 。 


在 Ubuntu12.10 中 ， 系 统 默认 安 闭 的 awk 是 mawk， 我 们 需要 另外 安 
疾 gawk， 因 为 mawk 与 Glibc 中 使 用 的 awk 脚 本 在 兼容 上 有 一 些 问题 。 


root@balsheng:~# apt-get install Sawk 


解压 源 色 ， 并 打开 修复 编 详 错误 的 patch。 


vita@baisheng:/vita/builds tar xvf ../source/glibc-2.15.tar.xz 
vita@baisheng:/vita/builds cd glibc-2.15 
vita@baisheng:/vita/build/glibc-2.15$ patch -pl \ 
本 
vita@baisheng:/vita/build/glibc-2.15$ patch -pl \ 
< ssl vs ROUurce/glibc*2,.15-8 frexp.patch 


Glibc 要 求 在 单独 的 目录 编译 ， 我 们 新 建 目录 glibc-build 用 来 编译 
Glibc。 


vita@baisheng:/vita/builds mkdir glibc-build 
vita@baisheng:/vita/builds cd glibc-build 
vita@baisheng:/vita/build/glibc-builds ../glibc-2.15/configure \ 
--prefix=/usr --host=$TARGET \ 
--enable-kernel=3.7.4 --enable-add-ons \ 
--with-headers=$SYSROOT/usr/include \ 
libc cv forced unwind=yes libc cv c¢ cleanup=yes \ 
libc cv ctors header=yes 


下 面 介绍 各 个 配置 参数 的 意义 


9 --host=$TARGET: 注意 这 里 与 Binutils 和 GCC 编译 时 指定 的 是 
target 参 数 不 同 ，Glibc 指 定 的 是 host 参 数 ， 但 这 里 host 的 值 是 
$TARGET， 也 束 是 说 C 库 运行 所 在 的 host 是 $TARGET。 换 句 话 说 ， 束 
是 告诉 刚刚 编译 的 交叉 编译 器 、 汇 编 器 、 链 接 需 等 编译 一 个 运行 在 
$TARGET 平 台 的 C 库 。 


令 --enable-kernel=3.7.4: 除非 是 制作 改行 原 ， 需 要 一 个 菊 容 更 早 内 
核 的 C 库 ， 否 则 我 们 没有 必要 问 后 兼容 较 早 版 本 的 内 核 ， 因 为 这 样 只 会 
降低 C 库 的 效率 ， 包 括 增加 C 库 的 体积 ， 甚 至 影响 运行 速度 。 本 书 构建 
的 系统 使 用 的 内 核 版 本 为 3.7.4， 因 此 ，C 库 只 支持 3.7.4 及 以 后 版 本 的 内 
核 束 可 以 了 。 当 然 ， 如 有 果 这 个 C 库 运行 在 早 于 3.7.4 版 本 的 内 核 上 ， 将 报 
类 似 于 "FATAL:kernel too old" 的 致命 错误 ， 拒 绝 运行 。 


令 --enable-add-ons: 编译 C 库 源码 目录 下 全 部 的 add-on， 如 libidn、 
nptl 。 


仿 --with-headers=$SYSROOT/usr/include: 告诉 编译 脚本 内 核 头 文 


件 所 在 的 目录 。 


@ libc_cv forced_unwind=vyes 和 1libc_cv_c_cleanup=yes: Glibc 中 的 
NPTIL 将 检测 C 编 译 司 对 线程 的 文 择 ， 而 freestanding 的 GCC 是 不 文 持 线 程 
的 ， 因 此 ， 我 们 这 里 欺骗 一 下 Glibc 中 的 NPTL， 告 诉 它 编译 器 是 支持 线 
程 的 ， 采 用 的 方法 是 设置 这 样 两 个 参数 。 


令 libc_cv_ctors_header=yes: I 临 时 的 freestanding 的 C 编 详 若 不 文 持 
启动 代码 与 构造 函数 支持 ， 因 此 ， 这 里 我 们 再 次 欺骗 一 下 Glibc， 人 为 
告诉 Glibc 编 详 老 是 文 持 局 动 代 但 上 时， 也 是 文 持 构 人造 冰 数 的 。 


配置 完成 后 ， 进 行 编 详 安 痛 。 我 们 通过 指定 参数 install_root 为 
$sSYSROOT， 将 C 库 安装 到 $SYSROOT， 即 /vita/sysroot 目 录 下 。 


vita@baisheng:/mnt/vita/build/glibc-builds make 
vita@baisheng:/mnt/vita/build/glibc-builds make 
install root=5$SYSROOT install 


下 面 介 绍 一 下 Glibc 安 装 的 主要 文件 。 
(1) C 库 


Glibc 际 了 将 最 基本 、 最 第 用 的 函数 封 泽 在 libc 中 外 ， 义 将 功能 相近 
的 一 些 函 数 封 冯 到 一 些 子 库 里 ， 比 如 将 线程 相关 函数 封 闻 在 libpthread 
中 ， 将 与 加 密 算法 相关 的 函数 封 窟 在 libcrypt 中 ， 等 等 。 


Glibc 除 了 安 痿 库 文 件 本 号 外 ， 还 建 记 了 符号 链接 ， 包 括 : 


令 动态 链接 时 使 用 的 共 圣 库 符 写 链 接 。 其 命名 格式 一 般 为 : 
libLIBRARY_NAME.so.MAJOR_REVISION_VERSION。 


令 开 友 时 使 用 的 共 圣 库 的 从 与 链接 。 其 命名 格式 一 般 为 : 
libLIBRARY_NAME.so。 


比如 数学 库 的 共 至 库 及 其 符号 链接 如 下 : 


vita@baisheng:/vita/sysroot/libs$ ls -1 libm* 
-WXxr-xr-x 1 vita vita 792815 Jan 23 10:29 libm-2.15.80o 


lrwxrwxrwx 1 vita vita 1 a 3 OY Tabm Do: a Lh Ta 
-rwWwxXr-xr-xX 1 ViIta vita 42195 Jan 23 10:29 libmemusage.so 
二 下 Jan WH 二 RE 


有 
WL ta vita T40758 Jan To9 T7737 TL1DMNount Sa... 10 


其 中 ，libm-2.15.so 是 数学 夯 的 共 圣 库 本 里 ，libm.so.6 是 运行 时 使 用 
的 符号 链接 ，libm.so 是 编 详 链接 时 使 用 的 符号 链接 。Glibc 将 运行 时 使 用 
的 库 安 疙 在 $SYSROOT/ib 目 录 下 ， 其 中 包括 共 圣 库 文件 本 号 及 动态 链 
接 右 需要 的 付 写 链接 。 将 开 友 时 使 用 的 库 安 沪 在 $bSSYSROOT/usrlib 目 录 
下 ， 包 括 开 发 时 需要 的 符号 链接 及 静态 库 等 。 


(2) 动态 链接 器 





Glibc 亦 提供 了 加 载 共 享 库 的 工具 动态 加 载 器 。2.15 版 的 Glibc 提 


供 的 动态 加 载 器 为 1d-2.15.s0， 其 从 与 链接 是 ld-linux.so.2， 也 和 安装 在 


$SYSROOTVIib 目 录 下 。 
(3) 头 文 件 


Glibc 为 应 用 程序 的 开发 提供 了 头 文 件 ， 安 靖 在 
$SYSROOT/usr/include 目 录 下 。 


(4) 工具 


Glibc 也 提供 了 一 些 可 执行 的 便利 工具 ， 这 类 工具 一 般 安 闭 在 sbin、 
usrbin、usrsbin 目 录 下 ， 比 如 用 来 转换 文件 字符 编 但 的 工具 iconv， 在 
usrlib/gconv 目 录 下 安装 了 工具 iconv 使 用 的 进行 字符 编码 转换 的 各 种 库 
(如 文 持 GB18030 的 GB18030.so) ， 如 果 不 打 算 在 目标 系统 上 转换 文件 
的 字符 编码 ， 完 全 不 必 安 装 该 工具 。 另 外 还 有 比如 查看 共享 库 依 赖 的 工 
上 其 1dd， 创 建 共 圣 库 缓存 以 所 局 共 圣 库 搜索 效率 的 ldconfig 程 序 等 。 


除 此 之 外 ，usr 目 录 下 还 有 文 持 国际 化 、 时 区 设置 需要 的 文件 等 。 
(5) 局 动 文件 


Glibc 提 供 了 启动 文件 ， 包 括 crtl1.o、crti.o、crtn.o 等 ， 这 类 文件 在 编 
译 链 接 时 将 被 链接 器 链接 到 最 后 的 可 执行 文件 中 ，Glibc 将 其 安装 在 
$SYSROOT/usrlib 目 录 下 。 


2.2.8 ”构建 完整 的 交叉 编译 可 


现在 目标 系统 的 C 库 已 经 构建 完成 ， 我 们 有 条 件 编 详 完 整 的 编 详 右 
了 。 进 入 GCC 的 编译 目录 ， 清 除 临 时 编译 的 文件 ， 重 新 配置 GCC， 与 第 
一 阶段 的 配置 并 无 本 质 区 列 ， 但 是 把 第 一 阶段 花 挥 的 一 些 特 性 打开 了 。 


vita@baisheng:/vita/build/gcc-builds rm -rf * 

vita@bailisheng:/vita/build/gcc-builds ../gcc-4.7.2/configure \ 
--prefix=$CROSS TOOL --target=$TARGET \ 
--with-sysroot=$SYSROOT 
--with-mpfr-include=/vita/build/gcc-4.7.2/mpfr/src 
--with-mpfr-lib=/vita/build/gcc-build/mpfr/src/.libs \ 
--enable-languages=c,C++ --enable-threads=poOs1lx 


注意 ， 这 次 是 编译 最 终 的 交叉 编译 器 ， 所 以 安装 在 $CROSS_TOOL 
目录 下 ， 而 不 是 $CROSS_GCC TMP 目录 下 。 虽 然 GCC 支 持 多 种 编译 
器 ， 但 是 我 们 只 需要 C 和 C++ 编译 器 。 另 外 ， 我 们 要 求 编译 器 文 持 posix 
线程 。 


在 配置 完成 后 ， 使 用 如 下 命令 编译 并 安 竣 : 


vita@baisheng:/vita/build/gcc-builds make 
vita@baisheng:/vita/build/gcc-builds make install 


最 终 的 交 广 编 详 瘟 安 濠 的 主要 文件 如 下 : 


(1) 驱动 程序 


GCC 安装 的 最 主要 的 是 交叉 编译 器 的 驱动 程序 ， 包 括 i686-none- 


linux-gnu-gcc、i686-none-linux-gnu-g++ 等 。 
(2) 目标 系统 的 库 和 头 文 件 


GCC 中 也 包含 了 一 些 用 于 目标 系统 的 运行 时 库 及 头 文件 ， 它 们 安装 
在 $CROSS_TOOL/i686-none-linux-gnu 目 录 下 。 在 该 目录 下 ， 子 目录 lib 
存放 包括 日 标 系 统 的 运行 时 库 以 及 供 日 标 系统 编译 程序 使 用 的 静态 库 ， 
子 目 录 include 下 包含 开发 目标 系统 上 的 程序 需要 的 C++ 头 文件 。 


(3) helper program 


可 面 我 们 提 到 ，gcc 仪 仪 是 一 个 驱动 程序 ， 它 将 调用 具体 的 程序 完 
成 具体 的 任务 ， 这 些 程序 被 GCC 安 闭 在 libexec 目 录 下 ， 和 典型 的 有 编 详 项 
ccL1， 链 接 过 程 调 用 的 collect2 等 。 


libexec- 与 sbin/bin 目录 下 存放 的 可 执行 文件 的 一 个 区 列 是 : sbin/bin 
目录 下 的 可 执行 文件 一 般 是 用 尸 使 用 的 ; 而 libexec 目 录 下 的 可 执行 文件 
一 般 是 由 某 个 程序 或 工具 使 用 的 ， 所 以 一 般 称 为 "helper program"。 


(4) freestanding 实 现 文件 


剖面 我 们 提 到 ，C99 标 准 定 义 了 两 种 实现 方式 : 一 种 称 为 "hosted 
implementation"， 文 持 全 部 C 标 准 ， 包 括 语言 标准 以 及 库 标 准 ; 另外 一 
种 是 "freestanding implementation"。 在 jib 目 录 下 的 头 文 件 即 


为 "freestanding implementation" 实 现 标准 要 求 的 头 文 件 。 
(5) 局 动 文件 
与 C++ 相关 的 局 动 文件 在 GCC 中 ， 包 括 crtbegin.o0、crtend.o 等 。 


讨论 完 C 库 和 编译 器 后 ， 我 们 看 到 ， 无 论 是 C 库 ， 还 是 GCC 都 各 上 自 
安装 了 头 文件 、 运 行 库 ，GCC 还 安装 了 一 些 内 部 使 用 的 可 执行 程序 。 那 
么 在 编译 程序 时 ，GCC 征 怎么 找到 这 些 文 件 的 呢 ? 答 肤 殴 征 GCC 内 部 定 
义 的 两 个 环境 变量 LIBRARY_PATH 和 COMPILER_PATH。GCC 会 根据 
用 户 的 一 些 配 置 参 数 ， 包 括 --target、--with-sysroot 等 设置 这 些 环境 变量 
的 值 。 我 们 可 以 在 编译 程序 时 ， 使 用 参数 "-v" 人 查看 这 两 个 变量 的 值 。 


vita@baisheng:~$ i686-none-linux-gnu-gcc -V hello.c 


COMPILER PATH=/vita/cross-tool/libexec/gcc/i686-none-linux-gnu/4.6.1/:/vita/ 
cross-tool/libexec/gcc/i686-none-linux-gnu/4.6.1/:/vita/cross-tool/libexec/gcc/ 
i686-none-linux-gnu/:/vita/cross-tool/lib/gcc/i686-none-linux-gnu/4.6.1/:/vita/ 
cross-tool/lib/gcc/i686-none-linux-gnu/:/vita/cross-tool/lib/gcc/i686-none-linux- 
nurA Gl/ ls i600 -nOne- Li on Dirny 

LIBRARY PATH=/vita/cross-tool/lib/gcc/i686-none-linux-gnu/4.6.1/:/vita/cross- 
tool/lib/gcc/i686-none-linux-gnu/4.6.1/../../../../i686-none-linux-gnu/lib/:/vita/ 
sysroot/lib/:/vita/sysroot/usr/l1ib/ 


比如 库 的 搜索 路 径 ， 根 据 LIBRARY_PATH 的 定义 ， 显 然 ， 既 包括 
GCC 安装 的 库 的 路 径 /vita/cross-tooUi686-none-linux-gntUlib， 又 包括 Glibc 
安装 的 库 的 路 径 /vita/sysroot/usr/lib。 


2.2.9 定义 工具 链 相 关 的 环境 变量 


GNU Make 使 用 了 一 些 隐 示 的 预定 义 变量 ， 并 且 这 些 变量 都 有 对 应 
的 默认 值 。 如 CC 代表 编译 融 ， 上 默认 值 是 程序 cc， 这 也 是 为 什么 Linux 各 
个 发 行 版 中 一 般 都 有 一 个 符号 连接 "ce" 指 癌 真 正 的 编译 器 的 原因 。 再 比 
如 AR 代表 汇编 右 ， 默 认 值 为 ar。 读 者 可 以 使 用 下 面 的 命令 输出 make 的 
数据 库 ， 进 一 步 查 看 make 数 据 库 中 的 信息 ， 比 如 查看 交叉 编译 环境 中 的 


编译 器 。 


vita@baisheng:~$ make -p | grep CC 


CC = 1686-none-1inux-gnu-gcc 
CPP = SS(CC) -BE 


这 些 隐 示 的 预定 义 变量 可 以 通过 环境 变量 上 覆 兰 ， 或 者 在 makefile 中 
显示 重新 定义 。 为 了 避免 在 纺 详 每 一 个 软件 包 时 ， 都 需要 时 示 指 定 使 用 
我 们 构建 的 区 文 工 具 链 ， 我 们 在 环境 变量 中 定义 编 详 过 程 使 用 的 相关 变 
量 。 我 们 将 相关 变量 定义 在 /home/vita/.bashrc 中 ， 确 保 在 每 次 切换 到 vita 
用 户 时 ， 这 些 变量 定义 目 动 生 效 。 


/home /vitay/ .bashrc 


eXDOrt CC="S$TARGET-gccen" 

export CXX="S5TARGET-Gg++" 
eXxXDOrt AR="S$TARGET-ar" 

全 其 站 DT AS="$TARGET-as" 

exXxport RANLIB="S$TARGET-ranlibn" 
exXport LD="S$TARGET-1d" 

exDpOrt STRIP="$TARGET- Str1ip" 


在 后 面 安装 编 详 程序 时 ， 一 般 我 们 均 通 过 给 make 传 递 变 量 
DESTDIR 指 定 make 将 它们 安装 到 目标 系统 的 根 文件 系统 下 ， 即 
$SSYSROOT 目 录 下 。 为 了 避免 每 次 部 需要 指定 DESTDIR 和 变量 ， 我 们 也 
在 .bashrc 中 定义 这 个 变量 。 

/home/vita/ .bashrc 


exDort DESTDIR=$SYSROOT 


为 了 使 设置 生效 ， 定 义 变 量 后 需要 退出 并 重新 切换 到 vita 用 户 。 


注意 ， 如 朱 和 需要 重新 构建 区 叉 编 详 工 具 链 ， 在 构建 前 ， 要 注释 邱 这 
一 节 的 变量 定义 ， 在 构建 完成 工具 链 后 册 重 新 局 用 这 里 的 变量 定义 。 


2.2.10” 封 站 “3E 义 ”pkg-config 


在 GNU 中 大 部 分 的 软件 都 使 用 Autoconf 配 置 ，Autoconf 通 常 借助 工 
上 有 具 pkg-config 去 获取 将 要 编译 的 程序 依赖 的 共 孚 库 的 一 些 信息 ， 比 如 库 
的 头 文 件 存 放 在 哪个 目录 下 ， 共 旦 库存 放 在 哪个 目录 下 以 及 链接 哪些 共 
享 库 等 ， 我 们 将 其 称 为 库 的 元 信息 。 通 常 ， 这 些 信 息 都 被 保存 在 一 个 以 
软件 包 的 名 称 命 名 ， 并 以 ".pc" 作 为 扩展 名 的 文件 中 。 而 pkg-config 会 到 
特定 的 目录 下 寻找 这 些 pc 文件 ， 一 般 而 言 ， 其 首先 搜索 环境 变量 
PKG_CONFIG_PATH 指 定 的 目录 ， 然 后 搜索 默认 路 径 ， 一 和 

是 /usr/lib/pkgconfig、/usr/share/pkgconfig、/usr/local/lib/pkgconfig 等 。 显 
然 ， 使 用 环境 变量 PKG_CONFIG_PATH 不 能 满足 我 们 的 要 求 。 因 为 在 
交叉 编译 环境 中 ， 我 们 是 不 能 允许 正在 编译 的 程序 链接 到 宿主 系统 的 库 
上 的 ， 也 就 是 说 ， 我 们 除了 告诉 pkg-config 到 目标 系统 的 文件 系统 中 寻 
找 外 ， 还 要 禁止 它 搜 索 默 认 的 笨 主 系统 的 路 径 。 而 另外 一 个 环境 变量 
PKG_CONFIG_LIBDIR 可 以 满足 我 们 这 个 需求 ， 一 旦 设置 了 
PKG_CONFIG_LIBDIR， 其 将 取代 pkg-config 默 认 的 搜索 路 径 。 因 此 ， 
在 交 广 编 详 时， 这 两 个 变量 的 设置 如 下 : 


/home/vita/ .bashrc 


unset PRG CONFIG PATH 
export PKG CONFIG LIBDIR=$SYSROOT/usr/l1ib/pkgcontig:\ 
SSYSROOT/usr/share/pkgcontfig 


注意 ”如 末 需 要 重新 构建 区 义 编 详 工具 链 ， 在 构建 前 ， 也 需要 注释 
挥 此 处 的 变量 定义 ， 在 构建 完成 工具 链 后 册 重 新 司 用 这 里 的 变量 定义 。 


除了 pkg-config 寻 找 pc 文 件 的 搜索 路 径 需 要 调整 外 ， 从 pc 文件 中 狱 
取 的 cflags 和 libs 也 需要 人 奶 加 sysroot 作 为 前 级 。 因 此 ， 这 里 我 们 包 疲 一 下 
host 系 统 的 pkg-config， 将 为 交叉 编 详 定制 的 pkg-config 放 在 
$SYSROOT/bin 下 。 


/vita/cross-tool/bin/pkg-contfig : 


#!/bin/bash 
HOST PKG CFG=/usr/bin/pkg-config 


i | SSTSROOT | then 
echo "Please make sure You are in cross-compile environment!'" 
exit 1 


fi 


SHOST PKG CFG --exists S$* 

1f | SP? ene 0 |] then 
exit 1 

fi 


if S$HOST PKG CFG S$* | sed -e "s/-I/-I\/vita\/sysroot/g;\ 
s/-L/-L\/vita\/sysroot/g" 
then 
exit 0 
else 
exit 1 
fi 


并 为 pkg-config 增 加 执行 权限 : 
vita@baisheng:/vita/cross-tool/bins chmod a+X pkg-confi 


下 和 面 是 答 主 系统 自身 的 pkg-config 获 得 的 libmount 库 的 --cflags 和 -- 


libs: 


vita@baisheng:~$ /usr/bin/pkg-config --cflags --libs mount 
-TI/usr/include/libmount -I/usr/include/blkid 
-IT/usr/include/uuid -lmount 


下 面 是 经 过 我 们 包装 的 pkg-config 得 的 libmount 库 的 --cflags 和 --libs: 


vita@balisheng:~$ pkKg-conflg --citlags --libs mount 
-I/vita/sysroot/usr/include/libmount 
-I/vita/sysroot/usr/include/blkid 
-I/vita/sysroot/usr/include/uuid -lmount 


显然 ， 经 过 我 们 包 寂 的 pkg-config 个 于 到 笨 主 系统 的 文件 系统 下 寻 
找 依 顿 的 库 ， 而 是 到 目标 系统 的 根 文 件 系 统 下 去 寻找 依赖 的 共 至 库 及 头 
文件 等 。 


2.2.11 关于 使 用 libtool 链 接 库 的 讨论 


GNU 中 的 大 部 分 软件 包 都 使 用 libtool 处 理 库 的 链接 。 通 常 ， 大 部 分 
的 软件 在 包 发 布 时 都 已 经 包含 了 libtool 所 需 的 脚本 工具 等 。 但 是 如 果 一 
旦 准备 使 用 autoconf、automake 睾 狐 生成 编 详 脚 本 ， 且 这 些 脚 本 中 包含 
了 libtool 提 供 的 M4 宏 ， 则 逢 要 安装 libtool。 可 使 用 如 下 命令 安装 


libtool。 


root@balisheng:~# apt-get install libtool 


在 交叉 编译 环境 中 使 用 libtool 处 理 库 的 链接 时 ， 依 然 还 有 个 不 大 不 
小 的 问题 ， 如 同 pkg-config 的 厂 烦 一 样 ， 如 果 使 用 特 主 系统 的 libtool， 那 
么 编译 库 时 生成 的 库 的 la 文件 中 ， 记 录 库 本 身 安装 的 位 置 以 及 依赖 库 的 
安装 位 置 的 路 径 将 依然 指 癌 宿主 系统 的 根 文件 系统 ， 比 如 一 个 典型 的 la 
文件 : 

dependency libs=' /usr/lib/libxcb,.1la /usr/lib/libXau.la' 
libdir=' /UsSr/lib' 

而 实际 上 ， 目 标 系 统 的 根 文 件 系 统 在 $6SSYSROOT 下 。 显 然 ， 如 果 使 
用 libtool 链 接 ， 将 会 找 错 库 的 安装 位 置 。 


我 们 可 以 修改 答 主 系统 的 libtool， 使 其 在 交 文 编 详 坏 境 下 能 够 创建 


合适 的 la 文件 ; 或 者 直接 修改 la 文件 ， 将 类 似 "WusrNib/*" 的 路 人 径 调整 
为 "$SSYSROOT/usr/Nib/*"; 或 者 如 pkg-config 一 样 ， 封 装 一 个 libtool。 但 
征 我 们 采用 更 简单 的 方式 ， 使 用 如 下 命令 将 la 文件 删除 : 


find S$SYSROOT -Dame "*.]la" -exec rm -f '{}' \; 


删 际 库 的 la 文件 后 ， 链 接 相 应 的 库 时 将 不 再 使 用 libtool 去 寻找 库 的 
位 置 ， 而 是 依靠 链接 右 去 寻找 库 的 位 置 。 虽 然 libtool 不 建议 这 样 做 ， 但 
这 样 做 最 简单 ， 且 不 容易 友 生 错误 ， 因 此 ， 后 续 我 们 采用 这 种 方法 。 


2.2.12 ”启动 代码 


局 动 代 公 是 工具 链 中 C 库 和 和 编 详 带 宛 所 供 了 的 午 要 部 分 之 一 ， 但 套 
由 于 应 用 程序 员 很 少 接触 它们 ， 因 此 非 第 容易 引起 程序 员 的 困惑 ， 所 以 
我 们 特 将 其 单独 列 出 ， 便 用 一 点 马 幅 加 以 讨论 。 


个 知 谈 首 是 个 留意 过 这 个 问题 : 无 论 定 在 DOS 下 、Windows 下 ， 还 
是 在 Linux 操 作 系 统 下 ， 程 序 员 使 用 C 语 言 编 程 时 ， 几 乎 所 有 程序 的 入 口 
函数 部 是 main， 这 是 因为 局 动 代 人 码 的 存在 。 在 "hosted environment" 下 ， 
应 用 程序 运行 在 操作 系统 之 上 ， 程 序 局 动 前 和 退出 前 前 要 进行 一 些 初始 
化 和 善后 工作 ， 而 这 些 工 作 与 "hosted environment" 密 切 相关 ， 并 且 是 公 
共 的 ， 不 属于 应 用 程序 范畴 的 事情 ， 这 些 应 用 程序 员 无 需 关 心 。 更 重要 
的 一 点 是 ， 有 些 初 始 化 动作 需要 在 main 函 数 运行 前 完成 ， 比 如 C++ 全 局 
对 象 的 构造 。 有 些 操作 是 不 能 使 用 C 语 言 守 成 的 ， 必 须要 使 用 汇编 指 
令 ， 比 如 栈 的 初始 化 。 于 是 编译 器 和 C 库 将 它们 抽取 出 来 ， 放 在 了 公共 
的 代码 中 。 


这 些 公 共 代 人 码 被 称 为 局 动 代 人 码 ， 其 实 不 只 是 程序 局 动 时 ， 也 包括 在 
程序 退出 时 执行 的 一 些 代码， 我 们 统称 它们 为 局 动 代码， 并 将 局 动 代 人 
所 在 的 文件 称 为 局 动 文件 。 对 于 C 语 言 来 说 ，Glibc 提 供 局 动 文件 。 喧 
然 ， 对 于 C++ 语 诗 来 说 ， 因 为 局 动 代码 是 和 语言 密切 相关 的 ， 所 以 其 局 


动 代 但 不 在 C 库 中 ， 而 由 GCC 提供 。 这 些 司 动 文件 以 "crt" (可 以 理解 为 
C RunTime 的 缩写 ) 开头 、 以 ".o" 结 尾 。 


我 们 人 查看 可 执行 程序 hello 的 入 口水 数 : 


root@baisheng:~/demo# readelf -h hello | grep Entry 
Entry point address: OxX80482f0 


根据 ELE 的 头 可 见 ， 可 执行 文件 hello 的 入 口 地 址 为 0x80482f0。 但 该 
地 址 对 应 的 函数 是 main 吗 ? 


root@baisheng:~/demo# readelf -s hello | grep 80482f0 
61: 080482f0 0 FUNC GLOBAL DEFAULT 13 start 


结 来 显然 让 我 们 很 失望 ， 可 执行 文件 的 入 口 不 是 我 们 熟 入 的 main 函 
数 ， 而 是 一 个 卫生 的 _start 函 数 ， 而 且 插 我 们 的 职业 下 和 澳 ， 这 个 函数 的 
定义 很 像 并 编 语言 的 函数 名 。 我 们 央 来 看 一 下 可 执行 文件 hello 的 代码 段 
的 起 始 地 址 : 


root@baisheng:~/demo# readelf -S hello 
There are 30 section headers, starting at offset 0X1198 : 


Section Headers: 
[Nr] Name Type Addr 下 Size 


[13] text PROGBITS 080482f0 0002f0 0001b8 


根据 代码 段 的 起 始 地 址 可 见 ，hello 的 代码 段 的 最 开头 的 函数 确实 是 
图 数 start， 而 不 是 我 们 熟悉 的 main 函 数 。 那 么 main 函 数 在 哪里 呢 ? 


root@baisheng:~/demo# readelf -s hello | grep main 
64: 080483fc 38 FUNC GLOBAL DEFAULT 13 main 


我 们 做 个 减法 运算 : 


Ox080483fc - 0x080482f0 = OXxl0c = 268 


也 就 是 说 ， 在 代码 段 中 ， 人 往 移 268 字 节 处 才 是 main 函 数 的 代码 ， 代 
人 码 段 的 前 268 字 市 虱 是 局 动 代 人 码 ， 当 然 ， 程 序 局 动 时 的 局 动 代码 不 仅 限 
于 这 268 字 和 刘 ， 因 为 孙 数 _start 中 可 能 还 会 调用 C 库 中 的 一 些 隙 数 。 


如 采用 户 的 程序 中 ， 没 有 明确 指明 使 用 目 己 定义 的 司 动 代 但 ， 那 么 
链接 右 将 目 动 使 用 C 库 和 C 编 译 绒 中 提供 的 局 动 代码 。 链 接 右 将 也 
数 "_start" 作 为 ELF 文 件 的 默认 入 口 冰 数 。 函 数 _start 的 相关 代码 如 下 : 


glibc-2.15/sysdeps/i386/elf/start.s 


_ Start: 
popl %esi /* Pop the argument count. */ 
movl1 %esp, Secx /* argv starts just at the current stack top.*/ 


andl] S$Oxfffffff0, Sesp 
pushl Seax /* Push garbage because we allocate 
28 more bytes. */ 


pushl Sesp 


pushl Sedx /* Push address of the shared library 
termination function. */ 
A-. PUBH dddresp TE GUE on Se omEs to Mi me .di ww 


pushl $5 libc csu fini 
Bus ss TEbe DH LtkE 


pushl] %ecx /* Push second argument: argv. */ 
pushl Sesi /二 push first argqument; arges */ 


pushl $BP SYM (main) 


/* Call the user's main function, and exit with its value. 
Put let the libc call main. */ 
Calli BE SYM 六 Libe BEart mmrnmy 


_start 疯 数 先 作 了 一 些 初 始 化 ， 接 看 就 是 调用 libc_start_main 奈 栈 
参数 ， 包 插 程 序 进入 main 函 数 之 前 的 初始 化 函数 _libc_csu_init、 退 出 时 
可 能 执行 的 善后 函数 ”libc_csu fini 以 及 main 哨 数 的 参数 ， 最 后 调用 


libc start main 。 


olibc-2.15/csu/libc-start.c.: 


STATIC 1int LIBC START MAIN (..,.} 


| 


if (1init) 
(*init)} (argc, argv, environ MAIN AUXVEC PARAM),， 


result = main (argc, argv, environ MAIN AUXVEC PARAM) ; 


进入 疯 数 ”libc_start_main 后 ， 将 调用 隐 数 ”libc_csu_init 等 初始 化 
浮 数 进行 各 种 初始 化 操作 、 准 备 程序 运行 环境 ， 最 后 才 进 入 我 们 熟知 的 
疯 数 。 


main 


函数 _start 包 含 在 启动 文件 crt1.o 中 。 根 据 启动 文件 crt1.0 的 符号 表 也 
[lS a 


vita@baisheng:/vitas readelf -s /vita/sysroot/usr/lib/crtl.o 


18: 00000000 0 FUNC GLOBAL DEFAULT 2 Start 


通过 前 面 的 简要 分 析 ， 我 们 直观 地 感受 到 了 所 谓 “ 启 动 代码 ”的 意 
义 。 函 数 _start 才 是 第 一 个 从 "hosted environment" 进 入 到 应 用 程序 时 运行 
的 第 一 个 阔 数 ， 是 名 副 其 实 的 入 口 函 数 。 从 系统 的 角度 看 ，main 也 数 与 

函数 无 寞 ， 并 不 是 什么 真正 的 入 口 函 数 ，main 只 是 程序 员 的 入 口 函 
数 。 因 此 ， 通 过 更 改 局 动 代 码 ， 这 个 程序 员 的 入 口 函数 也 完全 可 以 使 用 
其 他 的 函数 名 称 而 不 是 什么 main， 比 如 MFC 中 就 不 用 main 这 个 名 字 。 


在 链接 时 ，gcc 使 用 内 置 的 spec 文 件 来 控制 链接 的 启动 文件 。 编 译 
时 ， 可 以 通过 给 gcc 传 递 参数 -specs=file 来 上 履 盖 gcc 内 置 的 spec 文 件 。 我 们 


可 以 传递 参数 -dumpspec 来 租 看 gcc 内 置 的 spec 文 件 规定 链接 时 链接 哪些 
司 动 文件 : 


vita@baisheng:~$ i686-none-linux-gnu-gcc -dumpspec 

*endfile: 
${0fast|ffast-math|funsafe-math-optimizations:crtfastmath.o%s)} 
{mpc32:crtprec32 .0%s} 

{mpc64:crtprec64 .0%s} 

{mpc80:crtprec80.0%s} 

{shared|pie:crtendS.o%s;:crtend.o%sl! 

crtn.o%s 


*startfile: 
s{ !shared: %{pg|p|profile:gcrtl.o%s;pie:Scrtl1.o0%s;:crtl1.o%s}} 
Ct 


{static:crtbeginT.o%s;shared|pie:crtbeginS.o%s; :crtbegin.oss } 


当然 ， 编 译 时 也 可 以 根据 实际 情况 传递 参数 如 -nostartfiles、- 
nostdlib、-ffreestanding 等 给 链接 大 ， 告 诉 链 接 右 不 要 链接 系统 中 提供 的 
局 动 代码 ， 而 是 使 用 目 己 程序 中 提供 的 。 


最 后 ， 让 我 们 以 一 个 小 例子 ， 结 束 本 草 。 回 顾 上 面 的 函数 
jlibc_start_main， 在 其 调用 main 函 数 前 ， 启 动 代码 中 的 函数 
_libc_start_main 将 调用 init 冰 数 ， 而 _start 传 递 给 _ libc_start_mainH 的 Jinit 
因数 指针 指 网 的 是 _libc_csu_init: 


全 二 2 15 /G00elLEt=Lnit es 


voad. 人 cau Anit (Lint argey har **argyvs 总 Da 类 上 DVD 


人 


#1ifndef LIBC NONSHARED 


/* For static executables, preinit happens right before init. */ 
const size t size = preinit array end - 
本 
= 
far (1 二 05 1 这 加 ZE 生生 ) 
(* preinit, array start [i]) (argc;: argv; envp}):; 
#endif 
EE 也 
const size t size = init array end - init array start,; 
for (size Et 1 S30 1 < SIZ 于 二 
(I Tn1t array Btars bil large; argv, env 


根据 函数 可 见 ，_libc_csu_init 将 先后 调用 
段 ".preinit_array"、".init_array" 中 包含 的 函数 指针 指 同 的 函数 。 因 此 ， 如 
采 打 算 在 程序 执行 main 函 数 前 或 者 在 动态 夯 锐 加 载 时 做 点 什么 ， 那 么 我 
们 可 以 定义 一 个 函数 ， 并 告诉 链接 器 将 函数 指针 存储 到 
段 ".preinit_array" 或 ".init_array" 中 。 示 例 代 码 如 下 : 


one 
#include <stdio.h> 


void myinit (int argc, char **argv, char **envp) 


人 


Drintf ("Sex FUNCTION }3 
} 
attribute ((section(".init array"))) typeof (myinit) * myinit = 
myinit; 


Void test() 


人 
} 


printf("haVa", FUNCGTIOQN 4 
Bar:.e 
#include <stdio.h> 
voOLG marnl) 
| 


printf ("Enter main./n"), 
Cest (} 3 


我 们 通过 关键 字 "” attribute。((section(".init_array")))" 指 定 链接 器 将 
函数 myinit 的 地 址 放置 到 段 ".init_array" 中 ， 那 么 在 库 libfoo 被 加 载 时 ， 函 
数 myinit 会 被 _ libc_csu_init 调 用 。 


使 用 如 下 命令 编 详 并 运行 程序 : 


root@baisheng:~/demo# gcc -shared -fPIC foo.c -oO libfoo.so 
root@baisheng:~/demo# gcc bar.c -D bar -L./ -lfoo 
root@baisheng:~/demo# LD LIBRARY PATH=./ ./bar 

myinit 

Enter malDn 

Cest 


根据 程序 bar 的 输出 可 见 ， 函 数 myinit 在 进入 函数 main 之 前 束 被 调用 
了 。 也 就 古 说 ， 库 ]ibfoo 在 加 载 时 ， 函 数 myinit 束 税 局 动 代 公 调用 了 ，。 


第 3 草 ”构建 内 核 


内 核 的 构建 系统 kbuild 基 于 GNU Make， 是 一 套 非 常 复杂 的 系统 。 
我 们 本 无 意 着 太 多 笔墨 来 分 析 kbuild， 因 为 作为 开发 者 可 能 永远 不 需要 
去 改动 内 核 映 像 的 构建 过 程 ， 但 是 了 解 这 一 过 程 ， 无 论 是 对 学 习 内 核 ， 
还 是 进行 内 核 开 发 都 有 诸多 帮助 。 所 以 在 构建 内 核 之 前 ， 本 章 首 先 讨 论 
了 内 核 的 构建 过 程 。 


对 于 编译 内 核 而 言 ， 一 条 make 命 令 束 足够 了 。 因 此， 构建 内 核 最 困 
难 的 地 方 不 是 编译 ， 而 是 编译 前 的 配置 。 配 置 内 核 时 ， 通 常 我 们 都 能 找 
到 一 些 参考 。 比 如 ， 对 于 果 面 系统 ， 可 以 参考 主流 友 行 版 的 内 核 配 置 。 
但 是 ， 这 些 发 行 版 为 了 能 够 在 更 多 的 机 器 上 运行 ， 几 平 选 择 了 全 部 的 配 
置 选 项 ， 编 详 了 全 部 的 驱动 ， 不 仅 增 加 了 内 核 的 体积 ， 还 降低 了 内 核 的 
运行 速度 。 再 比如 ， 对 于 艇 入 式 系 统 ，BSP (Board Support Package ) 
中 通 第 也 提供 内 核 ， 但 他 们 通常 也 仅 古 个 可 以 工作 的 内 核 而 已 。 显 然 ， 
如 采 要 一 个 占用 空间 更 小 、 运 行 更 快 的 内 核 ， 束 前 要 开 友 人 员 手 动 配置 
内 核 。 而 且 ， 也 确实 存在 着 在 菏 些 情况 下 ， 我 们 找 不 到 任何 合适 的 参 
考 ， 这 时 我 们 上 只 能 以 手动 方式 从 零 开始 配置 。 

但 是 ， 面 对 内 核 中 成 干 上 万 的 配置 选项 ， 开 发 人 员 通 常 不 知 从 何 下 
手 。 但 正 所 谓 万 事 开 头 难 ， 一 旦 迈 过 了 这 个 坎 ， 读 者 了 驶 不 会 在 内 核 前 望 
而 却步 。 因 此 ， 在 本 章 中 ， 我 们 措 看 石 涉 过 河 ， 市 领 读者 以 手动 的 方式 


配置 内 核 。 


在 内 核 局 动 的 最 后 ， 内 核 要 从 根 文 件 系统 加 载 用 尸 空间 的 程序 从 而 
较 入 用 户 空 间 。 因 此 ， 在 本 和 章 的 最 后 ， 我 们 准备 了 一 个 基本 的 根 文件 系 
统 来 配合 内 核 的 司 动 。 我 们 也 采用 手动 的 方式 构建 这 个 根 文 件 系 统 ， 通 
过 于 动 的 方式 ， 读 者 将 会 更 透彻 地 了 解 到 动 辑 几 个 GB 的 根 文 件 系 统 是 
如 何 组 织 和 安排 的 。 


3.1 内 核 映像 的 组 成 


在 讨论 内 核 构 建 前 ， 我 们 先 来 简 持 了 解 一 下 内 核 上 映像 的 组 成 ， 如 图 
3-1 所 示 。 


| setup.bin || 


[uncompressed|, setup.bin 
(part 1) “ 和 
EE :| uncompressed | | 
人 (part 1) (part 1) 









vmlinux > 


vmlinux.bin.gz 


Tvmlinux.bin.gz |—— ;| vmlinux.bin.gz | | 





| uncompressed | | uncompressed 
A (part 2) (part 2) 
lluncompressed Le ; a 1 
(part 2 2 vmlinux.bin 1 bzlmage 


eT CO er ea Ee WR 


图 3-1 内 核 映像 bzImage 的 组 成 


如 果 将 内 核 的 映像 比 作 航天 器 ， 则 setup.bin 部 分 就 类 似 于 火箭 的 一 
级 推进 子 系统 。 最 初 ， 这 部 分 负 贡 将 内 核 加 载 进 内 存 ， 并 为 后 面 内 核 保 
护 模 式 的 运行 建立 基本 的 环境 。 但 后 来 加 载 内 核 的 功能 被 分 离 到 
Bootloader 中 ，setup.bin 则 退化 为 辅助 Bootloader 将 内 核 加 载 到 内 存 。 


宗 接 看 ， 包 围 在 32 位 保护 模式 部 分 外 的 是 非 解压 见 部 分 。 这 部 分 可 
以 看 作 是 火箭 的 二 级 推进 子 系统 ， 仙 贡 将 压缩 的 内 核 解压 到 合适 的 位 
兽 ， 并 进行 内 核 午 定位 ， 在 完成 这 个 环节 后 ， 其 从 内 核 映像 脱离 。 


最 后 是 内 核 的 32 位 保护 模式 部 分 vmlinux。 这 部 分 相当 于 航天 器 的 
有 效 载 傈 ， 即 类 似 于 最 后 运行 的 卫星 或 者 宇宙 飞船 ， 只 有 这 部 分 最 后 留 
在 轨道 内 《内 存 中 ) 运行 。 内 核 构建 时 ， 将 对 有 效 载 傈 vmlinux 进 行 压 
绾 ， 然 后 与 二 级 推进 系统 妆 配 为 vmlinux.bin。 


下 面 我 们 束 来 看 看 内 核 映 像 的 各 个 组 成 部 分 。 


3.1.1 一 级 推进 系统 





setup.bin 


在 进行 内 核 初 始 化 时 ， 需 要 一 些 信息 ， 如 显示 信息 、 内 存 信 息 等 。 
曾经 ， 这 些 信息 由 工作 在 实 模 陈 下 的 setup.bin 通 过 BIOS 获 取 ， 伍 存在 内 
核 中 的 变量 boot_params 中 ， 变 量 boot_params 是 结构 体 boot_params 的 一 
个 实例 。 如 setup.bin 中 收集 显示 信息 的 代码 如 下 : 


linux-3.7.4/arch/x86/boot/video.c: 
static Vold store video mode (vold) 
( 

struct biosregs ireg, oreg; 

lnitregs (&ireg),， 

Ire .an = 0X0F; 


intcall (0x10, &ireg, &oreg),; 


boot params.screen info.orig Video mode = oreg.al & Ox7f; 
boot params.screen info.orig video page = oreg.bh; 


store Video_mode 首 先 调 用 函数 intcall 获 取 显 示 方 面 的 信息 ， 并 将 其 
保存 在 boot_params 的 Screen_info 中 。intcall 是 调用 BIOS 中 断 的 封装 


0x10 是 BIOS 提 供 的 显示 服务 (Video Service) 的 中 断 号 ， 代 码 如 下 : 


linux=3.7,.4/arch/x86/boot blioscal1 .3S: 


intcoal}: 
/* Self-modify the INT instruction. Ugly, but works. */ 
cmpb 和 所 山 他 二 
Je 1f£ 
movb 记忆 十 寺 ， 芝 下 
TI 于 /* Synchronize pipeline */ 
下 汉 
.byte Oxcd /* INT opcode */ 


在 代码 中 我 们 并 没有 看 到 熟悉 的 调用 BIOS 中 断 的 吴 影 ， 
如 "int$0x10"， 但 是 我 们 看 到 了 一 个 特殊 的 字符 一 一 0xcd。 正 如 其 后 和 面 
的 注释 所 言 ，0xcd 束 是 x86 汇 编 指 令 INT 的 机 峰 公 ， 如 表 3-1 所 示 。 





表 3-1 x86 INT 指令 说 明 (部 分 ) 


朱 述 





根据 x86 的 INT 指 令 说 明 ，0xcd 后 面 跟着 的 1 字 币 束 是 BIOS 中 新 号 ， 
这 就 是 上 面 代 公 中 标号 为 3 处 分 配 1 字 节 的 目的 。 


在 函数 intcall 的 开头 ， 首 先 比 较 寄 人 存 噩 a 中 的 值 与 标号 3 处 占用 的 1 
字 节 ， 和 若 相 等 则 直接 癌 前 跳 转 至 标号 1 处 ， 人 否则 将 寄存 器 a 中 的 值 复制 
到 标号 3 处 的 1 个 字 节 空间 。 那 么 寄存 器 al 中 保存 的 是 什么 呢 ? 


在 默认 情况 下 ，GCC 使 用 栈 来 传递 参数 。 但 是 我 们 可 以 使 用 关键 


字 "_attribute (regparm(n))" 修 饰 函数 ， 或 者 通过 同 GCC 传 递 命令 行 参 
数 "-mregparm=n" 来 指定 GCC 使 用 寄存 占 传 递 参数 ， 其 中 n 表 示 使 用 寄存 
器 传递 参数 的 个 数 。 在 编译 setup.bin 时 ，kbuild 使 用 了 后 者 ， 编 译 脚本 如 
下 所 示 : 


linux-3.7.4/arch/x86/boot /Makefile. 


KBUILD CFLAGS ‘= i -Mregparm=3 


如 此 ， 也 数 的 第 一 个 参数 通过 宫 存 右 eax/ax 传 递 ， 第 二 个 参数 通过 
ebx/bx 传 违 ， 等 等 ， 而 不 是 退 过 栈 传 递 了 。 因 此 ， 上 和 面 的 寄存 右 al 中 保 
存 的 是 函数 intcall 的 第 一 个 参数 ， 即 BIOS 中 断 写 。 


在 完成 信息 收集 后 ，setup.bin 将 CPU 切换 到 保护 模式 ， 并 跳 转 到 内 
核 的 保护 模式 部 分 执行 。 如 我 们 前 面 讨论 的 ，setup.bin 作 为 一 级 推进 系 
统 ， 即 将 结束 历史 使 命 ， 所 以 内 核 将 setup.bin 收 集 的 你 存在 setup.bin 的 
数据 段 的 变量 boot_params 复 制 到 vmlinux 的 数据 段 中 。 


但 是 随 着 新 的 BIOS 标 准 的 出 现 ， 尤 其 古 EFI 的 出 现 ， 为 了 文 持 这 些 
新 标准 ， 开 发 者 们 制定 了 32 位 局 动 协议 (32-bit boot protocol) 。 在 32 位 
司 动 协议 下 ， 由 Bootloader 实 现 收集 这 些 信息 的 功能 ， 内 核 局 动 时 不 再 
需要 首先 运行 实 模式 部 分 〈 即 setup.bin) ， 而 是 直接 跳 转 到 内 核 的 保护 
模式 部 分 。 因 些 ， 在 32 位 局 动 协 议 下 ， 不 再 圾 要 setup.bin 收 集 内 核 初 始 


化 时 需要 的 相关 信息 。 但 是 这 是 否 意味 独 可 以 彻 确 放 痉 setup.bin 呢 ? 


事实 上 ， 除 了 收集 信息 功能 外 ，setup.bin 被 忽略 的 另 一 个 重要 功能 
就 是 负 贡 在 内 核 和 Bootloader 之 间 传 递 信 息 。 例 如 ， 在 加 载 内 核 时 ， 
Bootloader 坑 要 从 setup.bin 中 获取 内 核 是 否 古 可 香 定 位 的 、 内 核 的 对 章 要 
求 、 内 核 建议 的 加 载 地 址 等 。32 位 启动 协议 约定 在 setup.bin 中 分 配 一 块 
空间 用 来 承载 这 些 信 息 ， 在 构建 映像 时 ， 内 核 构 建 系统 需要 将 这 些 信息 
写 全 |setup.bin 的 这 块 空间 中 。 所 以 ， 虽 然 setup.bin 已 经 失去 了 其 以 往 的 
作用 ， 但 还 不 能 完全 放弃， 其 还 要 作为 内 核 与 Bootloader 之 间 传 递 数 据 
的 桥梁 ， 而 且 还 要 照顾 到 茶 些 不 能 使 用 32 位 局 动 协 议 的 场合 。 


3.1.2 ”二 级 推进 系统 一 内核 非 压缩 部 分 


内 核 的 你 护 模式 部 分 是 经 过 压 络 的 ， 因 此 运行 前 需要 解压 因 ， 但 是 
谁 来 人 负 员 内 核 映像 的 解压 呢 ? 解 伶 还 须 系 铃 人 ， 既 然 内 核 在 构建 时 目 己 
压 迪 了 目 己 ， 当 然 解 压缩 蕊 要 由 内 核 映 像 目 己 完 成 。 


内 核 在 压缩 的 映像 外 包围 了 一 部 分 非 压缩 的 代码 ，Bootloader 在 加 
载 内 核 映 像 后 跳 转 至 外 围 的 这 段 非 压 缩 部 分 。 这 些 没 有 经 过 解压 缩 的 指 
令 可 以 直接 送 给 CPU 执行 ， 由 这 段 CPU 可 执行 的 指令 负责 解压 内 核 的 压 


人 


约 部 分 。 


除了 解压 以 外 ， 非 压缩 部 分 还 负责 内 核 重 定位 。 内 核 可 以 配置 为 可 
重 定 位 的 《relocatable) ， 所 谓 可 重 定位 即 内 核 可 以 被 Bootloader 加 载 到 
内 存 任何 位 置 。 但 是 在 链接 内 核 时 ， 链 接 器 需要 假定 一 个 加 载 地 址 ， 然 
后 以 这 个 假定 地 址 为 参考 ， 为 各 个 符号 分 配 运行 时 地 址 。 显 然 ， 如 果 加 
载 地 址 和 链接 时 假定 的 地 址 不 同 ， 那 么 需要 对 符号 的 地 址 进行 重新 修 
订 ， 这 就 是 内 核 重 定位 。 


内 核 非 压缩 部 分 工作 在 保护 模式 下 ， 其 占用 的 内 存在 完成 使 命 后 将 
会 被 释放 。 


3.1.3 有效 载 何 vmlinux 





在 编译 时 ，kbuild 分 别 构建 内 核 各 个 子 日 录 中 的 目标 文件 ， 然 后 将 
它们 链接 为 vmlinux。 为 了 缩小 内 核 体 积 ，kbuild 删 除了 vmlinux 中 一 些 
不 必要 的 信息 ， 并 将 其 命名 为 vmlinux.bin， 最 后 将 vmlinux.bin 压 绾 为 
vmlinux.bin.gz。 在 默认 情况 下 ， 内 核 使 用 gzip 压 缉 ， 当 然 也 可 以 在 配置 
时 指定 使 用 lzma 等 压缩 格式 。gzip 的 压缩 比 相 对 较 小 ， 但 是 压缩 速度 相 
对 较 快 。 


那么 为 什么 内 核 要 进行 压缩 呢 ? 


1) 最 急 ， 因 为 在 条 些 体系 架构 上 ， 特 别 是 i386， 系 统 局 动 时 运行 
于 实 模式 状态 ， 可 以 寻 址 空间 只 能 在 1MB 以 下 ， 如 果 内 核 尺 寸 过 大 ， 将 
无 法 正常 加 载 ， 因 此 ， 对 内 核 进 行 了 压缩 。 在 内 核 加 载 完 毕 后 ，CPU 切 
换 到 保护 模式 ， 可 以 寻 址 更 大 的 地 址 空间 ， 于 是 就 可 以 将 压缩 过 的 内 核 
展开 了。 


2) 为 外 一 个 原因 是 ，2.4 及 更 早 版 本 的 内 核 ， 圾 要 可 以 容纳 在 一 张 
软盘 上 ， 所 以 内 核 也 要 进行 压 贿 。 


以 上 都 是 历史 原因 了 ， 如 今 有 些 Bootloader， 如 GRUB， 在 加 载 内 
核 期 间 惑 已 经 将 CPU 切换 到 保护 模式 了 ， 导 址 空间 的 限制 早已 不 是 问 


题 。 而 且 ， 如 今 软盘 基本 已 经 被 其 他 介质 苦 代 ， 容 量 己 不 是 问题 。 


但 是 内 核 的 压缩 还 是 保留 了 下 来 ， 毕 苋 还 要 元 虑 到 条 些 尺 寸 受 限 的 
情况 。 而 且 ， 现 代 CPU 解 压 的 速度 要 远大 于 IO 的 速度 ， 在 局 动 时 虽然 解 
压 要 耗费 一 点 时 间 ， 但 是 更 小 的 内 核 也 减少 了 加 载 时 间 。 


3.1.4 ”映像 的 格式 


不 知 读 者 留意 到 没有 ， 无 论 是 setup.bin、vmlinux.bin， 还 是 
vmlinux.bin.gz， 命 名 中 都 包含 "bin" 的 字样 ， 这 是 开发 者 有 意 为 之 ， 还 是 
机 缘 巧 合 ? 显然 ， 这 个 bin 不 是 开 有 发 人 员 随 意 杜 搂 的 ， 而 是 binary 的 纵 
写 ， 表 示 文 件 格 式 古 裸 二 进 制 (raw binary) 的 。 


读者 可 能 有 个 困惑 ， 在 Linux 操 作 系 统 中 二 进 制 文件 的 格式 不 十 使 
用 ABI (Application Binary Interface〉 规 定 的 ELF 吗 ? 


没 错 ， 在 Linux 作 为 操作 系统 的 hosted environment 环 境 下 ， 二 进 制 
文件 使 用 ELF 格 式 ， 操 作 系 统 也 提供 ELF 文 件 的 加 载 莫 。 但 是 ， 操 作 系 
统 本 身 确 是 工作 在 freestanding environment 环 境 下 。 操 作 系 统 显然 不 能 
强制 要 求 Bootloader 也 提供 ELF 加 载 磊 。 和 而且， 操作 系统 映像 也 没有 必 
要 使 用 ELF 格 式 来 组 织 ， 将 代码 和 数据 顺 次 存放 即 可 ， 即 所 谓 的 裸 二 进 
制 格式 。 所 以 ， 内 核 映 像 都 采用 裸 二 进 制 格式 进行 组 织 。 


但 是 ， 从 Linux 2.6.26 版 本 开始 ， 内 核 的 压缩 部 分 ， 即 有 效 载 符 部 
分 ， 采 用 了 ELEF 格 式 。 人 至 于 为 什么 采用 ELF 格 式 ，Patch 的 提交 者 给 出 了 
原因 : 


This allows other boot loaders such as the Xen domain builder the 
opportunity to extract the ELF file. 


我 们 知道 ， 在 解压 内 核 映 像 后 ， 将 会 跳 转 到 解压 映像 的 开头 执行 
但 是 ，ELF 文 件 的 开头 并 不 是 代码 段 的 开始 ， 而 是 ELF 文 件 涉 ， 也 束 古 
说 ， 并 不 是 CPU 可 执行 的 机 器 指令 。 显 然 ， 当 内 核 映 像 不 是 神 二 进 制 格 
式 时 ， 我 们 需要 有 一 个 ELF 加 载 右 来 将 ELF 榈 式 的 内 核 映 像 转化 为 禄 二 
进 制 格 式 。 那 么 谁 来 充当 这 个 ELF 加 载 融 呢 ? 


正 所 谓 “ 星 螂 捕 蝉 ， 芮 省 在 后 ”。 内 核 的 非 压 缩 部 分 调用 函数 
decompress 解 压 内 核 后 ， 紧 接 看 吏 调 用 了 男 数 parse_elf 来 处 理 ELF 格 式 的 
内 核 映 像 ， 代 人 码 如 下 : 


1inux-3.7.4/arch/x86/booty/compressed/misc.c : 


asmlinkage void decompress kernel(...) 


{ 


decompress(input data, input len, ...); 
parse elf (output).,; 


} 


static void parse elf (void *output) 


人 


for (i = 0; i < ehdr.e phnum; i++) { 
Bhar Sohore [ll] 
switch (phdr->p type) { 
case PT LOAD: 
#1ifdef CONFIG RELOCATABLE 
dest := output; 
dest += (phdr->p paddr - LOAD PHYSICAL ADDR) ; 
#else 
dest = (void *) (phdr=>p paddr); 
#endif 
memcpy (dest, output + phdr->p offset, phdr->p filesz); 
break; 
default: /* Ignore other PT * */ break:; 


} 


free (phdrs),， 


在 ELF 文 件 中 ， 存 放 代 码 和 数据 的 段 的 类 型 是 PT_LOAD， 因 此 ， 
仅 处 理 这 个 类 型 的 段 即 可 。 在 函数 parse_elf 中 ， 对 于 类 型 是 PT_LOAD 的 
段 ， 其 按照 Program Header Table 中 的 信息 ， 将 它们 移动 到 链接 时 指定 的 
物理 地 址 处 ， 即 p_paddr。 当 然 ， 如 果 内 核 是 可 重 定位 的 ， 还 要 考虑 内 
核实 际 加 载 地 址 与 编译 时 指定 的 加 载 地 址 的 差 值 。 


事实 上 ， 如 采 Bootloader 不 是 所 谓 的 "the Xen domain builder"， 我 们 
完全 没有 必要 保留 内 核 的 压缩 部 分 为 ELEF 格 式 ， 并 略 去 司 动 时 进行 
的 "parse_elf' 。 其 体 方 法 如 下 : 


(1) 将 压缩 部 分 链接 为 襟 二 进 制 格 却 


基 


传递 给 命令 objcopy 的 参数 奶 加 "-O binary"， 如 下 面 使 用 黑体 标识 


的 部 分 : 


linux-3.7.4/arch/x86/boot/compressed/Makefile: 


OBJCOPYFLAGS vmlinux.bin := -R .comment -3 -0 binary 
S (obi) /vmlinux.bin: vmlinux FORCE 
scall 1f changed,ob]copY) 


(2) 注释 挥 parse_elf 


既然 内 核 压 缩 部 分 已 经 是 裸 二 进 制 格式 的 了 ， 解 压 后 目 然 不 再 需要 
调用 函数 parse_elf 了 。 


linux-3.7.4/arch/x86/boot/compressed/misc.c: 


asmlinkage voild decompress kernel(...) 


{ 


decompresgslinput data, input len, +..)} 
/* parse elf (output); */ 


3.2 ”内 核 映 像 的 构建 过 程 


3.2.1 kbuild 简 介 


虽然 内 核 有 自己 的 构建 系统 kbuild， 但 是 kbuild 并 不 是 什么 新 的 东 
西 。 我 们 可 以 把 kbuild 看 作 利 用 GNU Make 组 织 的 一 套 复杂 的 构建 系 
统 ， 虽 然 kbuild 也 在 Make 基 础 上 作 了 适当 的 扩展 ， 但 是 因为 内 核 的 复杂 
性 ， 所 以 kbuild 要 比 一 般 项 目的 Makefile 的 组 织 要 复杂 得 多 。 虽 然 kbuild 
很 复杂 ， 但 也 是 有 章 可 循 的 ， 下 面 两 点 是 理解 kbuild 的 关键 。 


1.Makefile 的 包含 


Makefile 的 包含 是 很 多 复 某 的 项 目 中 第 用 的 方法 之 一 。 通 瘦 的 做 法 
是 将 共同 使 用 的 变量 或 规则 定义 在 一 个 文件 中 ， 在 二 要 使 用 的 Makefile 
中 使 用 关键 子 "include" 来 包含 这 个 文件 。kbuild 中 多 处 使 用 了 包含 的 方 
式 ， 其 中 关键 的 两 处 我 们 需要 特别 指出 。 


(1) 顶层 Makefile 包 含 平台 相关 的 Makefile 


为 了 Linux 能 够 方便 地 支持 多 平台 ，kbuild 必 须 方便 添加 对 新 平台 的 
文 持 ， 同 时 上 层 的 Makefile 不 需要 做 大 的 改动 ， 甚 至 不 需要 改动 。 所 
以 ，kbuild 将 与 平台 无 关 的 变量 、 规 则 等 放 到 了 顶层 的 Makefile 中 ， 平 台 


相关 的 部 分 定义 在 各 个 平台 的 “顶层 ”Makefile 中 。 上 所 谓 各 个 平台 的 “项 
层 ”Makefile， 即 arch/$(SRCARCHI) 目 孙 下 的 Makefile。 在 顶层 的 Makefile 
中 包含 平台 的 “顶层 ”Makefile， 脚 本 如 下 所 示 : 


linux-3.7.4/Makefile : 


include ss(srctree) /arch/s (SRCARCH) /Makefile 


其 中 变量 SRCARCH 的 值 就 是 平台 相关 部 分 所 在 的 目录 ， 对 于 IA32 
架构 ，SRCARCH 的 值 为 x86。 顶 层 Makefile 包 含 了 平台 的 “ 顶 
层 ”Makefile 后 ， 才 组 成 了 真正 的 Makefile。 这 也 是 为 什么 我 们 在 顶层 目 
录 执 行 "make bzImage" 这 样 的 命令 时 ， 可 以 编译 内 核 映 像 ， 却 在 顶层 目 
录 下 的 Makefile 中 找 不 到 目标 bzImage 的 原因 ， 因 为 其 在 平台 的 “页 
层 ”Makefile 中 。 


(2) Makefile.build 包 含 各 个 子 目 录 下 的 Makefile 


为 了 方便 Linux 开 发 者 能 够 编写 Makefile，kbuild 考 虑 得 不 可 谓 不 周 
到 ， 在 牺牲 自己 的 同时 〈kbuild 的 实现 非常 烦琐 ) ， 确 实 让 Linux 的 开发 
者 们 享受 了 便捷 。 比 如 ，kbuild 将 所 有 与 编译 过 程 相 关 的 公共 的 规则 和 
变量 都 提取 到 scripts 目 录 下 的 Makefile.build 中 ， 而 具体 的 子 目 录 下 的 
Makefile 文 件 则 可 以 写 得 非常 简单 和 直接 。 


的 文件 。 这 些 变 量 就 像 钩 子 或 者 回调 函数 ， 各 个 子 目录 Makefile 只 需 为 
其 赋值 ， 设 置 参 与 编译 的 文件 即 可 ， 其 他 事情 都 由 Makefile.build 处 理 。 
甚至 最 简单 的 Makefile 可 以 简单 到 只 有 一 行 语句 : 


linux-3.7.4/fs/notify/dnotify/Makefile: 


obj]-$ (CONFIG DNOTIFY) += dnotify.o 


在 编译 时 ，Makefile.build 会 指导 make 将 要 编译 的 子 目 录 下 的 
Makefile 文 件 包 含 到 Makefile.include 中 动态 地 组 成 完整 的 Makefile 文 件 ， 
脚本 如 下 : 


1inux-3.7.4/scripts/Makefile.buila : 


本 
kbuild-file := $(if S$S(wiLdcard $s (kbuild-dir) /Kbuild), 

s (kbuild-dir) /Kbuild,s (kbuild-dir) /Makefile) 
include $ (kbuild-file) 


理论 上 ， 要 包谷 Makefile 文 件 ， 一 条 include 命 令 就 够 了， 为 什么 这 


里 实现 得 如 此 复 洒 ? 


一 是 因为 src 的 值 是 相对 于 顶层 目录 的 ， 所 以 在 顶层 目录 执行 make 
没有 任何 问题 。 但 是 如 果 make 不 是 在 顶层 目录 执行 的 ， 那 么 就 需要 使 用 
绝对 路 径 来 定位 编译 的 子 目 录 了。 这 就 是 为 什么 既然 有 了 src， 还 要 定义 
变量 kbuild-dir。src 古 kbuild 中 定义 的 一 个 变量 ， 始 终 指 癌 需要 构建 的 日 
录 ，kbuild-dir 则 是 加 上 了 绝对 路 人 径 的 src。make 使 用 内 骸 孙 数 filter 来 判 


断 编 译 所 在 的 目录 的 路 径 是 否 是 以 绝对 路 径 表 示 ， 即 以 “/” 开 头 ， 如 果 不 
是 ， 则 冠 以 $Csrctree)。srctree 记 录 内 核 项 层 目 录 的 绝对 路 径 。 以 笔者 的 
环境 为 例 ，srctree 的 值 是 /vita/build/linux-3.7.4。 在 一 般 情况 下 ， 构 建 都 
发 生 在 顶层 目录 下 ， 在 子 目 录 下 构建 是 为 内 核 开 及 人 员 迭 供 的 特性 。 


二 是 因为 子 目 录 下 的 "Makefile" 文 件 毕 竟 不 是 一 个 真正 意义 上 的 
Makefile， 上 所 以 kbuild 的 设计 者 的 初衷 是 希望 使 用 Kbuild 这 个 名 字 。 扶 
以 ， 我 们 看 到 ， 在 确定 kbuild-file 时 ， 使 用 make 的 内 髓 函数 wildcard 首 先 
尝试 匹配 子 日 录 下 是 否 存 在 Kbuild 这 个 文件 。 如 果 有 则 优先 使 用 
Kbuild， 人 奋 则 使 用 Makefile。 但 是 事实 上 ， 在 内 核 目 录 的 绝 大 部 分 子 日 
录 下 ， 人 们 还 是 更 习惯 使 用 Makefile 这 个 名 字 。 


2. 使 用 指定 Makefile 的 方式 进行 递归 


通明 ， 很 多 使 用 make 进 行 构 建 的 项 目 ， 当 和 存在 多 级 目 隶 时， 使 用 化 
归 方 式 构 建 ， 例 如 : 


Cd subdir && make 


也 融 是 说 ， 在 子 目录 下 构建 时 ， 首 先 要 切换 当前 工作 目录 到 子 目 
录 ， 然 后 青 局 动 一 个 make 进 程 解释 执行 当前 目录 下 的 Makefile。 在 编译 
一 些 规模 稍 大 一 点 的 软件 时 ， 我 们 经 单 看 到 make 不 断 通 过 cd 命令 切换 目 
杂 ， 原 因 束 在 于 此 。 


但 是 ，kbuid 并 没有 采用 切换 目录 的 方式 。 在 kbuild 中 ，make 的 当前 
工作 目录 永远 是 顶层 目录 ， 当 编译 子 目 录 时 ，kbuild 通 过 命令 行 选项 -{ 
将 子 目 孙 的 Makefile 传 递 给 make， 从 而 达到 编 详 子 目录 的 目的 。kbuild 
使 用 的 典型 方式 如 下 : 


5 (MARE) S$(bDulld)=<subdir> [target) 


其 中 MAKE 是 make 的 内 部 变量 ， 读 者 把 它 理解 为 make 妈 可。 变量 
build 在 Makefile.build 中 定义 : 


linux-3.7.4/scripts/Kbuild.include: 


# Shorthand for $(Q)S$(MAKE) -f scripts/Makefile .build ob]j= 


# Usage: 
# S$(Q)S (MAKE) S$ (Dull1d)=d1ir 
build := =f S$(1if S$(KBUILD SRC),.S (srctree})}/)scripts/Makefile,build 


ob] 


只 有 当 在 子 目录 进行 make 时 ， 变 量 KBUILD_SRC 才 会 被 设置 为 子 
目录 ， 和 否则 ， 在 顶层 目录 进行 make 时 ， 该 变量 值 为 空 ， 所 以 make 的 内 
舱 函 数 放 的 返回 值 为 else 部 分 。 但 是 因为 让 函数 的 else 部 分 为 空 ， 所 以 该 
图 数 返回 值 为 衬 。 正 如 注释 中 所 说 ， 变 量 build 相 当 于 下 面 这 段 脚本 的 简 
写 ， 


-f scripts/Makefile.build ob]= 


我 们 进一步 把 上 面 的 make 命 令 展开 : 


make -f scripts/Makefile.build cb]j=<subair> [target] 


也 束 说 ， 通 过 命令 行 参数 -f， 指 定 Makefile 为 scripts 目 录 下 的 
Makefile.build。 而 当 make 解 释 执行 Makefile.build 时 ， 再 将 子 目录 中 的 
Makefile 包 含 到 Makefile.include 中 来 ， 动 态 地 组 成 子 目 录 的 真正 的 
Makefile。 


既然 通过 指定 Makefile 的 方式 编译 多 级 目录 ， 而 make 又 始终 工作 在 
顶层 目录 下 ， 那 么 必然 要 在 顶层 工作 目录 中 跟踪 编 详 所 在 的 子 目 孙 。 为 
此 ，kbuild 定 义 了 两 个 变量 : src 和 obj。 其 中 ，src 始 终 指向 需要 构建 的 目 
录 ; obj 指 癌 构 建 的 目标 存放 的 目录 。 并 约定 ， 在 引用 源码 树 中 业已 存 
在 的 对 象 时 使 用 变量 src， 引 用 编译 时 动态 生成 的 对 象 使 用 变量 obj。 
kbuild 在 脚本 中 小 心地 维护 看 这 两 个 变量 的 值 。 实 际 上 ， 因 为 构建 的 目 
标 存放 的 目录 与 源 文件 经 党 在 同一 个 目录 下 ， 所 以 大 部 分 情况 下 这 两 个 
变量 均 指 癌 同 一 个 日 录 。 


理解 了 kbuild 中 这 两 个 变量 的 意义 后 ， 读 者 一 定 看 明白 了 上述 make 
命令 中 参数 "obj=<subdir>" 的 意义 ， 就 是 设置 变量 obj 的 值 ， 记 录 编 译 
所 在 的 子 目 录 。 而 在 Makefile.build 的 一 开头 ， 变 量 src 的 值 也 被 设置 为 
$(obj)。 


J]inux-3.7.4/scripts/Kbuild.include: 


SE 2 
PHONY := build 
Bll: 


下 面 ， 我 们 束 结 合 构建 ITA32 架 构 下 的 内 核 映 像 bzImage， 探 讨 内 核 
映像 的 具体 构建 过 程 。 


3.2.2 ”构建 过 程 概述 


在 编译 内 核 时 ， 退 党 我 们 只 需要 执行 "make bzImage"， 或 者 make 后 
面 不 接任 何 目标 。 在 没有 接 日 标 时 ， 构 建 的 内 核 映 像 也 是 bzImage。 读 
者 自然 会 问 : 我 们 并 没有 指定 构建 vmlinux、vmlinux.bin 和 setup.bin， 最 
后 的 bzImage 是 怎么 来 的 呢 ? 


虽然 我 们 没有 最 示 指定 这 几 部 分 的 构建 ， 但 是 谈 者 想必 已 经 猜 出 来 
了 ， 这 是 Makefile 的 依赖 的 魔法 。 下 面 是 构建 bzImage 的 规则 ， 我 们 暂且 
不 讨论 它 的 由 来 ， 先 把 焦点 放 在 bzImage 的 依赖 关系 上 : 


11nmux-3.7.4/arch/Xx86/Doct /MakefilLe : 


$s (obj) /PbPzImagde: $(obj) /setup.bin S$(ob]j) /vmlinux.bin An 
Ss {obj) /tools/build FORCE 


根据 构建 规则 可 见 ，bzImage 依 赖 于 setup.bin 和 vmlinux.bin， 所 以 在 
构建 bzImage 有 前 ，make 将 目 动 先 去 构建 它们 ， 以 此 类 推 ，vmlinux 的 构建 
也 是 同样 的 道理 。 因 此 ， 组 成 内 核 映 像 的 各 个 部 分 的 构建 顺序 如 下 : 


1) 构建 有 效 载 何 vmlinux， 并 将 其 压缩 为 vmlinux.bin.gz; 


2) 构建 二 级 推进 系统 ， 并 将 二 级 推进 系统 疤 配 到 有 效 载 何 上 ， 组 


成 vmlinux.bin: 


3) 构建 一 级 推进 系统 ， 即 构建 setup.bin; 
4) 将 setup.bin 和 vmlinux.bin 组 合 为 bzImage。 


接 下 来 我 们 束 依 次 讨论 各 个 部 分 的 构建 过 程 。 


3.2.3” vmlinux 有 的 构建 过 程 


所 有 的 体系 结构 都 震 要 构建 vmlinux， 上 所 以 vmlinux 的 构建 规则 在 顶 
层 的 Makefile 中 。 


linux-3.7.4/Makefile: 


cmd link-vmlinux = ${CONFIG SHELL) $< $(LD) $ (LDFLAGS) \ 
$ (LDFLAGS vmlinux) 


vmlinux: scripts/link-vmlinux.sh ss (vmlinux-deps) FORCE 
+$ (call 1if changed,l1ink-vml1inux) 


注意 ， 构 建 vmlinux 的 命令 使 用 了 make 的 内 置 函数 call。 这 是 一 个 比 
较 特殊 的 内 置 函 数 ，make 使 用 它 来 引用 用 户 自己 定义 的 带 有 参数 的 函 
数 。 主 changed 古 kbuild 定 义 的 一 个 函数 ， 这 里 通过 call1 引 用 这 个 函数 ， 
传递 的 实 参 是 link-vmlinux。 函 数 放 changed 的 定义 如 下 : 


linux-3.7.4/scripts/Kbuild.include: 


if changed = $(if $(strip $(any-prereq) $(arg-check)), \ 
@set -e; \ 
$s (echo-cmd) $ (cmd $(1L) ) ; \ 
echo ‘cmd $@ := $9 (make-cmd) > $(dot-target) .cmd) 


在 if_changed 中 ，any-prereq 检 查 是否 有 依赖 比 目 标 新 ， 或 者 依赖 还 
没有 创建 ，arg-check 检 查 编译 目标 的 命令 相对 上 次 是 否 发 生变 化 。 如 果 
两 者 中 只 要 有 一 个 发 生 改 变 ， 就 执行 和 函数 的 ff 块 。 注 意 f 块 中 的 使 用 黑 
体 标识 的 部 分 ， 其 中 *1* 代 表 的 就 是 传 给 让 _ changed 的 第 一 个 实 参 。 由 此 


可 见 ，f_changed 核 心 功能 束 是 当 目 标的 依赖 或 者 编译 命令 发 生变 化 
上 时， 执行 表达 式 "cmd_$(1)" 展 开 后 的 值 。 


这 里 ， 传 给 if_changed 的 第 一 个 实 参 是 link-vmlinux， 因 此 ， 
cmd_$(1) 展 开 后 为 cmd_link-vmlinux。 注 意 cmd_link-vmlinux 中 的 第 二 
项 “$ 二 ”， 这 是 make 的 自动 变量 ， 翻 译 白 "Automatic Variable"， 意 指 变 
量 名 相同 ， 但 是 make 根 据 上 其 体 上 下 文 ， 将 其 日 动 荣 换 为 合适 的 值 。 这 
里 ，make 会 将 这 个 目 动 变量 奉 换 为 构建 vmlinux 中 的 规则 中 的 第 一 个 依 
赖 ， 即 shell 脚 本 文件 scripts/link-vmlinux.sh， 访 脚本 文件 中 人 希 贡 vmlinux 
链接 的 脚本 如 下 : 


linux-3.7.4/scripts/link-vmlinux.sh: 
vmlinux Lurk() 
local lds="${objtree}/${KBUILD LDS}" 
if [ "${SRCARCH}" != "um" ]; then 
${LD} ${LDFLAGS} ${LDFLAGS vmlinux} -o ${2} \ 
-T ${lds} ${KBUILD VMLINUX INIT)} \ 
--start-group ${KBUILD VMLINUX MAIN} --end-group ${1)} 


else 


fi 


} 
ola "${kallsymso}" vmlinux 
根据 函数 vmlinux_link 的 实现 ， 如 果 平 台 不 是 "um"， 那 么 就 调用 和 链 
接 器 将 变量 KBUILD_VMLINUX_INIT、KBUILD_VMLINUX_MAIN 中 
记录 的 目标 文件 链接 为 vmlinux。 我 们 看 看 这 两 个 变量 的 定义 : 


linux-3.7.4/Makefile. 


# Externally visible symbols (used by link-vmlinux .sh) 

export KBUILD VMLINUX INIT := $ (head-y) $ (init-y) 

export KBUILD VMLINUX MAIN := $ (core-y) $(libs-y) $ (drivers-y)\ 
$ (net-y) 


我 们 以 core-y 为 例 来 分 析 变 量 KBUILD_VMLINUX_MAIN 的 值 。 


linux-3.7.4/Makefile : 


Core-y ;= USr/ 
Core-y += kernel/ mm/ fs/ ipc/ security/ crypto/ block/ 
Core-y 全 ai ia 


patsubst 是 make 的 内 置 函 数 ， 功 能 是 在 输入 的 文本 中 人 查找 与 模式 罗 
配 的 字符 串 ， 然 后 使 用 特定 字符 串 进 行 蔡 换 。 有 基体 到 这 里 ， 其 目的 怠 是 
在 变量 core-y 的 值 中 将 字符 串 “/ 敬 换 为 built-in.o"。 经 过 辆 数 patsubst 答 


换 后 ， 最 后 变量 core-y 的 值 如 下 : 


Core-y := UsSer/built-in.o kernel/built-in.o mm/built-in.o fs/built-in.o \ 
DER gecurity/bDullt-in.o crvtorbulltein.o 
block/built-in.o 


除了 各 个 子 目 杂 下 的 built-in.o， 有 些 子 目录 〈 如 ]lib〉 下 还 会 编 详 
lib.a。 总 之 ，vmlinux 束 古 由 这 些 目 录 下 有 的 built-in.o、1ib.a 等 链接 而 成 
的 。 


那么 这 些 子 目录 下 面 的 目标 文件 built-in.o 或 者 lib.a 是 在 什么 时 机 构 
建 的 呢 ? 我 们 来 回 磊 一 下 vmlinux 的 构建 规则 ; 


11mux-3.7.4/Makefile : 


vmlinux: scripts/link-vmlinux.sh $ (vmlinux-deps) FORCE 


我 们 看 到 ， 除 了 依赖 scriptslink-vmlinux.sh，vmlinux 的 另外 一 个 依 
赖 是 vmlinux-deps， 其 构建 规则 也 在 顶层 Makefile 中 定义 : 


1inux-3.7.4/Makefile : 


vmlinux-dirs sa ODS V/s(liter 本 S(init-vy} \ 
$s (init-m) $ (core-y) S$ (core-m) S$ (drivers-y) $ (drivers-m) \ 
$s (net-y) S$(net-m) $(libs-y) $(libs-m))) 


vmlinux-deps := $(KBUILD LDS) $ (KBUILD VMLINUX INIT) 
$ (KBUILD VMLINUX MAIN) 


9 (sort S$(vmlinux-deps)}): S$(vmlinux-dirs) ; 


$s (vmlinux-dirs): prepare scripts 
$(Q)S(MAKE) S$ (build)=s@ 


我 们 首先 看 看 变量 vmlinux-deps， 显 然 ， 其 记录 的 就 是 我 们 前 面 讨 
论 的 最 终 链接 为 vmlinux 的 内 核子 目录 下 的 目标 文件 的 名 字 ， 如 built-in.o 
等 。 也 就 说 ，vmlinux 的 构建 规则 表达 得 很 清楚 ， 要 最 后 链接 vmlinux， 
首先 需要 构建 这 些 目标 文件 。 但 是 注意 目标 vmlinux-deps 的 构建 规则 ， 
其 “规则 体 ” 是 空 的 ， 也 就 是 说 这 个 构建 规则 下 没有 任何 命令 可 执行 ， 但 
是 可 以 看 到 这 些 目标 文件 依赖 于 另外 一 个 目标 vmlinux-dirs， 我 们 继续 跟 
踪 目 标 vmlinux-dirs 的 构建 。 


我 们 来 天 注 一 下 变量 vmlinux-dirs 的 值 。 注 意 访 变量 的 赋值 脚本 ， 其 
中 轴 数 filter 也 是 make 的 内 置 冰 数 ， 其 功能 是 过 波 挥 输入 文本 中 不 
以 “/2” 结 尾 的 字符 串 。 前 面 我 们 看 到 ， 输 入 到 filter 的 这 些 变 量 ， 比 如 core- 


y， 其 中 所 有 的 子 目录 都 以 “2" 纺 尾 ， 因 此 ， 这 里 filter 的 目的 是 过 小 兵 这 
些 变量 中 的 非 目 录 。patsubst 这 个 make 的 内 置 函 数 我 们 刚刚 讨论 过 ， 显 
然 是 将 过 小 出 来 的 子 目 录 后 面 的 字符 “/" 去 把 。 因 此 ， 正 如 其 名 字 所 揭示 
有 的， 变量 vmlinux-dirs 的 值 是 多 个 目录 ， 所 以 构建 vmlinux-dirs 的 规则 也 
征 一 个 多 目标 规则 ， 等 价 于 : 


1nit: prepare scripts 
5 (Q) 5 (MARE) S$ (build)=5@ 
Kernel: prepare scripts 
(QIS (MARKE) SS (bulld)=$@ 


规则 中 的 命令 展开 后 为 : 
make -f script/Makefile.build obj=$@ 


其 中 “$@” 是 make 的 目 动 变量 ， 表 示 规 则 的 目标 ， 所 以 这 里 会 被 
make 自 动 替换 为 构建 的 子 目录 ， 如 init、kernel 等 ， 即 相当 于 逐个 编译 这 
些 子 目录 ， 使 用 的 Makefile 是 Makefile.build。 如 3.2.1 节 讨论 的 那样 ， 
Makefile.build 将 包含 构建 目录 中 的 Makefile 或 Kbuild， 最 终 形 成 完整 地 
Makefile。make 命 令 中 没有 显 式 指定 构建 目标 ， 因 此 ， 将 构建 
Makefile.build 中 默认 的 目标 。Makefile.build 中 的 默认 目标 是 _build， 脚 
本 如 下 所 示 : 


linux-3.7.4/scripts/Makefile.build: 


Bre Sm SLODTJ) 
PHONY ;= build 
bull: 


_ build: $(it $(KBUILD BUILTIN),$ (builtin-target) \ 
$ (lib-target) $ (extra-y)) \ 
$ (if $ (KBUILD MODULES),$ (obj-m) $ (modorder-target)) \ 
$ (subdir-ym) $ (always) 


目标 _build 泗 入 了 内 核 映 像 和 模块 ， 这 里 我 们 只 关注 内 核 映像 的 构 
建 ， 不 关注 模块 的 构建 。 对 于 编 详 内 核 映 像 来 说 ， 目 标 _build 依 赖 
builtin-target、lib-target、extra-y、subdir-ym 和 always。 我 们 先 来 看 


builtin-target 和 ]ib-target: 


linux-3.7.4/scripts/Makefile.build: 

TENed thletEIlS FOI WD 

lib-target := $(o0ob]j)/1ib.a 

endif 

ijfneq ($(strip $(obj-y) $(obj-m) $ (obj-n) $(obj-) $(subdir-m) \ 
$s (lib-target)),) 


builtin-target ;= S$(0bjJ)/built-in.6 
endif 


根据 上 述 脚 本 片断 可 见 ，builtin-target 代 表 的 就 是 子 目录 下 的 built- 
in.0，1lib-target 代 表 的 束 是 子 目 录 下 的 lib.a。 对 于 构建 的 子 目 录 ， 如 果 变 
量 obj-y 等 值 非 空 ， 那 么 就 构建 built-in.o。 如 果 变 量 lib-y 等 的 值 非 空 ， 那 
么 束 构 建 lib.a。 我 们 来 看 看 built-in.o 和 lib.a 有 的 构建 : 


11inux-3.7.4/scripts/Makefile.buila : 


CI Jink © target. = (if Stetrip S$(obj=y)},., 
$ (LD) $ (ld flags) -r -o $@ $(filter $(obj-y), $“^) \ 
$ (cmd secanalysis),\ 
rm -f S$@; $(AR) rcss (KBUILD ARFLAGS) $@) 


$s (builtin-target): S$(ob]j-y) FORCE 
$ (call if changed,1link oO target,) 


cmd link 1 target = rm - S$@; $(AR) rcss (KBUILD ARFLAGS) 9$@ $(11ib-y) 


$ (lib-target): $(lib-y) FORCE 
(lcall if changed,link 1 target,) 


前 面 已 经 讨论 过 函数 放 changed， 如 果 理 解 了 这 个 函数 ， 就 很 容易 
理解 built-in.o 和 1lib.a 的 构建 过 程 了 ， 对 于 built-in.o， 就 是 调用 链接 器 将 变 
量 obj-y 中 记录 的 各 个 目标 文件 链接 为 builtrin.o。 对 于 lib-target， 残 是 调 
用 创建 静态 库 的 程序 AR 将 变量 lib-y 中 的 各 个 目标 文件 链接 为 lib.a。 


编译 内 核 时 需要 一 些 临时 工具 ， 比 如 我 们 前 面 用 到 的 mkpiggy、 
build 等 ， 这 些 是 一 定 需 要 编译 的 ， 因 为 构建 内 核 时 会 用 到 。 因 此 ， 
kbuild 中 定义 了 一 个 变量 always， 其 中 记录 的 就 是 必须 要 编译 的 构建 目 


标 。 


男 外 ， 可 能 有 多 层 目 录 髓 僚 的 情况 ， 因 此 build 依赖 列表 中 有 这 人 么 
一 项 : subdir-ym。 目 标 subdir-ym 的 规则 如 下 : 


linux-3.7.4/scripts/Makefile.build.: 


5 {Subdir-ym): 
5S {QIS (MARKE) S$ {bulilld)=s@ 


上 上面 的 代码 看 上 去 是 不 是 很 熟悉 ? 疫 错 ， 它 和 前 面 处 理 vmlinux-dirs 
的 规则 完全 相同 ， 显 然 ， 这 是 在 处 理 目 隶 中 还 有 子 目 孙 的 情况 。 


至 此 ， 和 链接 vmlinux 的 目标 文件 经 构建 完成 。 回 顾 一 下 vmlinux 的 构 
建 过 程 ，kbuild 将 依次 构建 Makefile 中 指定 的 子 目录 ， 和 生成 builtin.o、 
lib.a 等 目标 文件 ， 然 后 调用 链接 器 将 这 些 目 标 文件 链接 为 vmlinux， 并 保 
存在 顶层 目录 下 。 


3.2.4_vmlinux.bin 的 构建 过 程 


根据 图 3-1 可 知 ，kbuild 将 有 效 载 三 与 内 核 的 非 压 几 部 分 泪 配 为 
vmlinux.bin。 我 们 前 面 已 经 看 到 了 有 效 载 何 vmlinux 的 构建 过 程 ， 这 一 市 
我 们 讨论 二 级 推进 系统 的 构建 ， 并 看 看 二 级 推进 系统 是 如 何 与 有 效 载 何 
进行 逆 配 的 。 构 建 vmlinux.bin 的 规则 在 arch/x86/boot 目 孙 下 的 Makefile 
中 : 


linux-3.7.4/arch/x86/boot/Makefile.: 


OBJCOPYFLAGS vmlinux.bin := -0O binary -R ,Dote -R .comment -5S 
$ (obj)/vmlinux.bin: $(obj)/compressed/vmlinux FORCE 
(call if changed,ob]copy) 


根据 前 面 对 kbuild 自 定义 函数 if_changed 的 讨论 可 知 ， 这 里 将 执行 命 
令 cmd_objcopy。cmd_objcopy 的 定义 如 下 : 


linux-3.7.4/scripts/Makefile.1ib: 


cmd objcopy = $(OBJCOPY) $ (OBJCOPYFLAGS) $ (OBJCOPYFLAGS $ (@F)) \ 


其 中 OBJCOPY 就 是 二 进 制 工具 objcopy， 当 然 ， 因 为 我 们 使 用 的 是 
交叉 工具 链 ， 所 以 objcopy 是 i686-none-linux-gnu-objcopy， 前 面 构建 工具 
链 时 构建 组 件 Binutils 时 已 经 构建 : 


linux-3.7.4/Makefile ， 


OBJCOPY = $$ (CROSS COMPILE) CD]JCoPYy 


这 里 使 用 这 个 工具 的 目的 是 将 ELF 格 式 的 文件 转化 为 裸 二 进 制 格 
is 


cmd_objcopy 中 的 “$ 二 ”、“$@”、“$(@F)” 都 是 make 的 目 动 变 
量 ，“$ 雪 ”表示 规则 的 依赖 列表 中 的 第 一 个 依赖 ， 这 里 是 
arch/x86/boot/compressed/vmlinux; “$@” 表 示 规 则 的 目标 ， 这 里 是 
arch/x86/boot/vmlinux.bin; “$(@F)” 表 示 构 建 目 标 去 除 目 录 后 的 文件 
名 ， 这 里 是 vmlinux.bin， 因 此 变量 OBJCOPYFLAGS_$(@F) 展 开 为 
OBJCOPYFLAGS_vmlinux.bin。 答 换 各 个 变量 后 ，cmd_objcopy 了 最 后 展 
开 大 致 为 : 


cmd objcopy = i686-none-linux-gnu-objcopy -0 binary -R .note \ 
-R .comment -S arch/x86/boot/compressed/vmlinux \ 
arch/x86/boot/vmlinux.bin 


上 述 代 人 码 的 意义 已 经 显而易见 了 : arch/x86/boot 目 录 下 的 
vmlinux.bin 古 由 arch/x86/bootcompressed 目 孙 下 的 vmlinux 通 过 工具 i686- 


none-linux-gnu-objcopy 复 制 而 来 。 


为 了 指导 加 载 句 加 载 ELF 文 件 ，ELE 文 件 中 附加 了 很 多 信息 ， 如 
ELEF 文 件 头 、Program Header Table、 符 写 表 、 香 定位 表 等 。 但 是 这 些 对 


内 核 是 没有 意义 的 ，Bootloader 加 载 内 核 时 不 需要 ELF 文 件 中 附加 的 这 
些 信息 ， 变 量 OBJCOPYFLAGS_vmlinux.bin 中 的 "-O binary" 指 定 objcopy 
将 复制 后 内 核 转换 为 裸 二 进 制 格式 ; 选项 〈 如 ".note"、".comment" ) 则 
表明 将 这 些 段 也 删除 。 读 者 可 能 会 问 ， 转 化 为 保 二 进 制 格式 时 还 会 你 留 
如 ".note"、".comment" 等 段 吗 ?当然 了 ， 转 化 为 裸 二 进 制 格 式 只 不 过 把 
为 ELF 格 式 附加 的 东西 去 除 近 了， 比如 ELF 的 涉 、Section Header 
Table、Program Header Table 等 ， 但 是 并 不 会 删除 保存 具体 内 容 的 段 。 


显然 ， 构 建 的 焦点 转换 为 arch/x86/boot/compressed 下 的 vmlinux， 其 
构建 规则 如 下 : 
] inux-3.7.4/arch/x86/boot /Makefile: 


$s (obj) /compressed/vmlinux: FORCE 
$ (OQ)S (MAKE) S$ (build)=s$ (obj) /compressed S$@ 


构建 命令 展开 为 ; 


make -f scripts/Makefile.build obij=arch/x86/boot/compressed 
arch/x86/boot/compressed/vml inux 


Makefile.build 将 arch/x86/bootcompressed 目 孙 下 的 Makefile 包 含 到 
Makefile.build 中 ， 生 成 完整 的 Makefile。 但 是 这 次 ，make 没 有 如 同 构建 
各 个 子 目 录 一 样 使 用 默认 的 构建 目标 ， 而 是 指定 了 构建 目标 为 
arch/x86/boot/compressed/vmlinux， 其 构建 规则 在 


arch/x86/boot/compressed 目 录 下 的 Makefile 中 定义 : 


linux-3.7.4/arch/x86/boot/compressed/Makefile.: 
VMLINUX OBJS = $(obj}/vmlinux.lds ${o0obj) /head ${(BITS)} .0 
Ss{tobj) /misc,o $$ (obj]) /String.o S(tobj)/cmdline,o \ 
$$ (obj)/early serial console.o $(obj})/piggy.o 
$s (Obj) /vmlinux: 5 (VMLINUX OBJS) FORCE 
Ss (call if changed,ld) 
对 于 32 位 系统 ， 变 量 BITS 为 32。 由 上 述 Makefile 可 见 ， 
arch/x86/bootcompressed 目 录 下 的 vmlinux 是 由 该 目录 下 的 head_32.o0、 
misc.o、string.o、cmdline.o、early_serial console.o 以 及 piggvy.o 链 接 而 成 


的 。 其 中 vmlinux.lds 是 指导 和 链接 过 程 的 脚本 。 


在 一 份 刚刚 解压 且 没 有 进行 任何 编译 动作 之 前 的 内 核 源 码 中 ， 除 了 
piggy.0， 我 们 可 以 找到 上 述 依赖 列表 中 任何 一 个 目标 文件 的 源 文件 ， 比 
如 head_32.o 对 应 源 文件 head_32.S，misc.o 对 应 源 文 件 misc.c 等 。 而 我 们 
却 找 不 到 piggy.o 对 应 的 源 文 件 ， 比 如 piggy.c 或 piggy.S 亦 或 其 他 。 但 是 仔 
细 观 察 ， 我 们 会 发 现在 arch/x86/boot/compressed 目 录 下 的 Makefile 中 有 一 
个 创建 文件 piggy.S 的 规则 : 


linux-3.7.4/arch/x86/boot/compressed/Makefile.: 
cmd mkpiggy = $(obj)/mkpiggy $< > $@ || ( rm -f $@ ; false ) 
(oTirpmluaarS So vml om Dim Sleutiir yr Stobl) mor A 


FORCE 
$s (call if changed,mkpiggy) 


看 到 上 面 的 规则 ， 我 们 习 然 大 悟 ， 原 来 piggy.o 是 由 piggy.S 汇 编 而 
来 ， 而 piggy.S 是 编译 内 核 时 动态 创建 的 ， 这 就 是 我 们 找 不 到 它 的 原因 。 
piggy.S 的 第 一 个 依赖 vmlinux.bin.$(suffix-y) 中 的 suffix-y 表 示 内 核 压缩 方 
式 对 应 的 后 级 : 


linux-3.7.4/arch/x86/boot/compressed/Makefile. 


sufiix-$ (CONFIG KERNEL GZIP) := 台 Z 
sufitix-5 (CONFIG KERNEL BZ2ZIP2) Se 


如 采 配 置 内 核 时 指定 采用 gzip 压 缩 方式 ， 则 suffix-y 值 为 gz; 如 果 指 
定 bzip2 压 缩 方 式 ， 则 suffix-y 值 为 bz2; 等 等 。 在 本 书 中 ， 我 们 配置 的 内 
核 使 用 默认 的 压缩 方式 gzip， 因 此 ，suffix-y 的 值 为 gz。 那 么 
vmlinux.bin.gz 古 什么 呢 ? 我 们 看 下 面 的 脚本 : 


linux-3.7.4/arch/x86/boot/compressed/Makefile. 
vmlinux.bin.all-y := S$ (obj) /vmlinux.bin 


vmlinux.bin.all-$ (CONFIG X86 NEED RELOCS) += 
$s (obj) /vmlinux.relocs 


$s (obj) /vmlinux.bin.gz: $s(vmlinux.bin.all-y) FORCE 
(call ift changed,gz1ip) 
看 到 这 里 ， 相 信访 者 已 经 不 需要 看 cmd_gzip 的 定义 了 。 根 据 变 量 
vmlinux.bin.all-y 的 值 ，vmlinux.bin.all-y 中 包括 arch/x86/boot/compressed 
目录 下 的 vmlinux.bin。 如 采 内 核 被 配置 为 可 重 定 位 的 ， 那 么 


vmlinux.bin.all-y 中 还 包括 记录 重 定 位 信息 的 vmlinux.relocs。 也 残 是 说 ， 
如 宁 内 核 被 配置 可 重 定 位 ， 则 vmjlinux.bin.gz 是 由 vmlinux.bin 和 
vmlinux.relocs 压 缩 而 来 的 ， 人 否则 只 和 古 vmlinux.bin 由 压缩 而 来 。 


那么 arch/x86/bootcompressed 目 录 下 的 vmlinux.bin 又 是 如 何 创建 
的 ? 看 下 面 的 脚本 : 


linux-3.7.4/arch/arch/x86/boot/compressed/Maketfile. 
OBJCOPYFLAGS vmlinux.bin :=  -R .comment -5 


$s (obj) /vmlinux.bin: vmlinux FORCE 
(call if changed,ob]copy) 


我 们 再 次 看 到 了 有 玖 悉 的 objcopy， 也 殉 是 说 ， 
arch/x86/bootcompressed 目 孙 下 的 vmlinux.bin 是 由 vmlinux 复 制 而 来 。 而 
vmlinux 疫 有 任何 修饰 前 级 ， 这 说 明 其 束 是 最 顶层 上 日 录 下 的 有 效 载 傈 。 
但 是 在 这 里 我 们 也 看 到 ， 这 软 复 制 过 程 只 是 删除 了 ".comment" 段 ， 以 及 
符号 表 和 重 定位 表 《〈 通 过 参数 -S$ 指 定 ) ， 而 有 效 载 傈 vmlinux 的 格式 依 
然 是 ELEF 格 式 的 ， 如 果 不 需 要 使 用 ELF 格 式 的 内 核 ， 这 里 退 加 一 个 "-O 
binary" 邱 可 。 


至 此 ， 我 们 明白 了 vmlinux.bin.gz 束 是 有 效 载 奏 的 压 红 。 


接着 我 们 再 来 看 构建 目标 piggy.S 的 命令 。 进 行 变 量 符 换 后 ， 
cmd_mkpiggy 展 开 为 : 


cmd mkpiggy = arch/x86/boot/compressed/mkpiggy 
arch/x86/boot/compressed/vmlinux.bin.gz 
> arch/x86/boot,/compressed/piggy.s 


其 中 mkpiggy 和 是 内 核 目 市 的 一 个 工具 程序 ， 源 但 如 下 : 


linux-3.7.4/arch/x86/boot/compressed/mkpiggy.c: 


int main(int argc, char *argv[]) 


| 


printf(".section \'",rodata. .compressed\",\"a\",\ 
@progbits\n"):; 


printf(",globl z input lenvn"); 


( 
Printf("z 1nput Ter = Slu\n", lilen),; 
printt( "globl zz output 上 EN 
printf ("zs output len = %lu\n", {unsigned long)olen); 
printf ("globl z extract offset\n"}); 
printt (ts EXtEACE Ofteet = 0Xslr ni"s GEESYS 
Drintf{", nobin Woeav"\n™, araqv [i]s 


mkpiggy 同 屏 硕 打 纯 了 一 堆 文 本 。 习 惯 上 ， 我 们 会 认为 标准 输出 束 
是 屏幕 ， 但 是 回头 再 仔细 观察 一 下 cmd_mkpiggy 的 定义 ， 其 将 标准 输出 
重 定 同人 到 了 文件 piggy.S， 所 以 这 里 printf 实 际 上 是 在 组 织 汇 编 语句 ， 然 
后 输出 到 piggy.S$ 中 。 也 就 是 说 ，mkpiggy 就 是 在 “ 写 ” 一 个 汇编 程序 。 


根据 代码 可 见 ， 这 个 piggy.S 非 第 人 简单， 其 使 用 汇编 指令 incbin 将 压 
缩 早 有 效 载 和 何 vmlinux.bin.gz 不 加 更 改 地 和 直接 包含 进来 。 除 了 包 侣 了 压缩 
的 内 核 映 像 外 ，piggy.S$ 中 还 定义 了 解压 vmlinux.bin.gz 时 需要 的 各 种 信 


轧 ， 包 括 压 缩 映 像 的 长 度 、 解 压 后 的 长 度 等 ， 在 解压 内 核 时 ， 解 压 代 码 
将 需要 这 些 信 息 。 下 面 是 mkpiggy 生 成 的 一 个 具体 的 piggy.S 示 例 : 

.Section ".rodata..compressed','a",@pProgbits 

“Globl zz input len 

2 input len = 172155'7 

:globl z output len 

2 Output len = 3421472 

‘Jl1obl z extract offset 

2 extract offset = 0x1DP0000 

‘globl z extract offset negative 

2 extract cftfeet negative = 一 0X1DOUDDO 

:globl input data, input data end 

input data: 

.incbin "arch/x86/boot/compressed/vmlinux.bin.gz" 

input data end: 


终于 结束 了 这 个 让 人 了 胶 尝 的 过 程 ， 让 我 们 来 回顾 一 下 vmlinux.bin 的 
构建 过 程 : 


1) kbuild 使 用 objcopy， 将 顶层 Makefile 构 建 好 的 内 核 映 像 vmjlinux 
复制 到 archMx86/bootcompressed 目 妙 下， 删除 六 .comment" 段 、 符 号 和 
和 重 定 位 表 ， 并 命名 为 vmlinux.bin; 


2) kbuild 压 迪 内 核 映 像 vmlinux.bin， 笔 者 采用 默认 的 压缩 方式 
gZip， 所 以 压缩 后 的 内 核 映 像 为 vmlinux.bin.gz; 


3) kbuild 借 助 内 核 自 带 的 程序 mkpiggy 构 建 一 个 汇编 程序 piggvy.S， 
该 汇编 程序 吏 是 vmlinux.bin.gz 加 上 一 些 解 压 内 核 时 需要 的 信息 ; 


4) kbuild 将 head_32.0o、misc.o 以 及 包含 压缩 映像 的 piggy.o 等 目标 文 


件 链接 为 vmlinux.bin， 保 存 到 arch/x86/boot 目 录 下 。 


可 见 ，vmlinux.bin 由 压缩 的 vmlinux 加 上 以 head 32.0 为 代表 的 一 小 
部 分 非 压缩 代码 组 成 。vmlinux 束 是 我 们 捉 到 的 有 效 载 和 ， 而 这 部 分 非 
压缩 代码 就 是 我 们 所 谓 的 二 级 推进 系统 。 


3.2.5 ”setup.bin 的 构建 过 程 


构建 setup.bin 的 规则 也 在 arch/x86/boot 目 录 下 的 Makefile 中 : 


linux-3.7.4/arch/x86/boot/Makefile: 
Setup-y += a20. bioscall.o cmdline.o copy.o cpu.o cpucheck.o 
SETUP OBJS = $ (addprefix $ (obj)/,$ (setup-y)) 
LDFLAGS setup.elf 下 志 于 
$ (obj)/setup.elf: $(src)/setup.ld $(SETUP OBJS) FORCE 
$s (call if changed, 1d) 
OBJCOPYFLAGS setup.bin := -0 binary 


$ (obj)/setup.bin: $ (obj)/setup.elf FORCE 
$ (call if changed,ob]jcopy) 


根据 setup.bin 的 构建 命令 可 见 ，setup.bin 是 由 setup.efl 经 过 objcopy 复 
制 而 来 的 。 根 据 构 建 setup.elf 的 规则 可 见 ， 构 建 setup.elf 的 命令 为 
cmd_ld， 其 定义 如 下 : 
linux-3.7.4/scripts/Makefile.1ib: 


cmd ld = $5(LD) S$ (LDFLAGS) 3 (ldflags-y) $$ (LDFLAGS S$ (@F)) 入 
¢ (filter-Gut FORCE,. S$ ) -6G 5 加 


这 里 LD 就 是 链接 右 i686-none-linux-gnu-ld， 定 义 在 顶层 Makefile 


linux-3.7.4/Maketfile: 
LD = $ (CROSS COMPILE) 1a 


链接 右 的 输出 就 十 规则 的 目标 ““$@”) ， 这 里 就 是 
setup.elf。“$A” 也 是 make 的 一 个 目 动 变量 ， 表 示 规 则 的 全 部 依赖 ， 所 以 
这 里 链接 各 的 输入 即 古 规 则 的 依赖 ， 但 是 使 用 make 的 内 置 函 数 filter-out 
过 滤 掉 了 依赖 中 的 伪 目 标 FORCE， 因 此 输入 是 arch/x86/boot/setup.ld 和 
$(SETUP_OBJS)。 其 中 ，setup.ld 是 传递 给 链接 器 的 链接 脚本 ; 
SETUP_OBJS 对 应 的 则 是 变量 setup-y 中 记录 的 目标 文件 ， 只 不 过 使 用 
make 有 的 内 置 函数 addprefix 在 这 些 文件 前 面 中 洪 加 了 一 个 前 经， 目的 古 在 
顶层 目录 中 能 找到 这 些 目 标 文件 。 


这 里 我 们 看 到 了 kbuild 的 一 个 约定 ， 虽 然 都 在 arch/x86/boot 目 孙 下 ， 
但 是 引用 原本 就 存在 的 文件 setup.ld 使 用 的 是 变量 src， 而 引用 动态 创建 
的 SETUP_OBJS 则 使 用 了 变量 obj。 


将 上 述 变量 替换 到 cmd ld，cmd 1d 最 后 展开 为 : 


cmd ld = ié686-none-linux-gnu-1ld -T arch/x86/boot/setup. Ia， 
arch/x86/boot/a20.0 arch/x86/boot/bioscall.o ...\ 
-0O arch/x86/boot/setup.elf 


也 就 说 ， 链 接 器 依照 链接 脚本 setup.1d， 将 arch/x86/boot 目 录 下 的 日 
标 文 件 a20.o、bioscall.o 等 链接 为 setup.elf。 


但 是 setup.elf 也 是 ELF 格 式 的 ，ELF 附 加 的 一 些 信 息 对 内 核 是 没有 意 
义 的 ， 所 以 kbuild 也 将 ELF 格 式 的 setup.elf 转 换 为 神 二 进 制 格式 的 
setup.bin。 全 此 ， 一 级 推进 系统 准备 完成 。 


3.2.6 ”bzImage 的 组 合 过 程 


一 级 推进 系统 和 包括 有 效 载 谷 的 二 级 推进 系统 都 已 就 绊 ， 这 一 节 ， 
我 们 融 来 讨论 一 级 推进 系统 和 二 级 推进 系统 的 组 合 。 组 合 的 规则 定义 在 
平台 的 “] 页 层 ”Makefile 中 : 


linux-3.7.4/arch/x86/Makefile: 
boot := arch/x86 /boot 

KBUILD IMAGE := S$ (boot) /bzImage 
ee ep vmL1inux 


5 RIF (MARKE) SS (bulld)=s (boot) 5$ (KEBUILD IMAGE) 


在 将 各 个 变量 进行 蔡 换 后 ， 构 建 bzImage 的 命令 展开 为 : 


make -ft scripts/Makefile.build obj=arch/x86/boot 
arch/x86/boot/bzImage 
Makefile.build 将 包含 在 arch/x86/boot 目 录 下 的 Makefile 文 件 组 成 为 最 
终 的 Makefile。 构 建 目 标 arch/x86/boot/bzImage 的 规则 在 arch/x86/boot 下 


的 Makefile 中 : 


linux-3.7.4/arch/x86 /boot /Makefile: 
ss (obj) /bzImage: S$(obj) /setup.bin s(obj}) /vmlinux.bin An 
$s (obj) /tools/build FORCE 
$s tcall if changed,1image) 
我 们 来 看 看 构建 bzImage 的 命令 cmd_image， 其 在 
arch/x86/boot/Makefile 中 定义 : 


linux-3.7.4/arch/x86/boot /Makefile: 
cmd image = $(obj)/tools/build $ (obj)/setup.bin \ 
$ (obj) /vmlinux.bin > $@ 
根据 cmd_image 的 定义 ， 表 面 上 束 是 执行 程序 build， 并 传递 给 程序 
build 两 个 参数 ， 分 别 是 arch/x86/boot 目 录 下 的 setup.bin 和 vmlinux.bin， 同 
时 将 程序 build 的 标准 输出 stdout 重 定 回 到 规则 的 目标 〈$9@) ， 即 
bzImage。 那 么 程序 build 宛 葛 做 了 什么 呢 ? 我 们 来 看 看 它 的 源码 : 


11inUx=3.7,2Aareh/xe6/bDoot/ tools/bulild.e: 


1 /* This must be large enough to hold the entire setup */ 
2 u8 buf [SETUP SECT MAX*512] ; 

呈 

a 4nt mantint arge, Char we argy) 

5 


( 


6 总 
本 Void *kernel:; 
8 


9 file = Eopen (azxgZ[1] "Yr"); 


10 和 

于 了 人 = freagdlbufs 1 Sl2eof (buaf}:, fley) 

4 7. a 

13 fd = open(largvl2], O RDONLY).,， 

14 Se 

了 与 Kernel = mmap (NULL, sz, PROT READ, MAP SHARED, fd, 0); 
16 和 

i Wt Btdouty 4m 4) 

18 a 

19 if Lifwrite(kernel, i 82 Stdout) l= B21 
wa 

"| 


1) argv[1] 对 应 办 是 setup.bin， 所 以 第 9 行 代码 就 是 将 文件 setup.bin 
打开 ， 第 11 行 代码 是 将 其 内 容 谈 到 数组 buf 中 。 由 第 1 行 的 注释 可 见 ， 数 
组 buf 束 是 用 来 存放 setup.bin 的 。 


2) argv[2] 对 应 的 是 vmlinux.bin， 所 以 第 13 行 代码 是 将 文件 
vmlinux.bin 打 开 。 因 为 vmlinux.bin 尺 寸 较 大 ，build 并 没有 使 用 与 
setup.bin 相 同 的 方式 读 取 vmlinux.bin， 而 是 将 vmlinux.bin 映 射 到 build 的 
进程 空间 中 ， 变 量 kermel 指 向 了 vmlinux.bin 映 射 的 基 址 ， 如 代码 第 15 行 
所 示 。 也 就 是 说 ，build 通 过 内 存 映 射 的 方式 谈 取 文件 vmlinux.bin。 


3) 第 17 行 代码 是 将 读 取 到 buf 中 的 setup.bin 写 入 到 标准 输出 
(stdout) 。 而 根据 cmd_image 的 定义 ，build 程 序 已 经 将 其 标准 输出 重 定 
向 为 bzImage， 所 以 这 里 并 不 是 将 setup.bin 显 示 到 屏幕 上 ， 而 是 写 入 到 文 
件 bzImage 中 。 


4) 同 理 第 19 行 代码 是 将 vmlinux.bin 写 入 到 文件 bzImage 中 。 


可 见 ， 程 序 build 束 是 将 setup.bin 和 vmlinux.bin 傈 单 地 连接 为 


bzImage。 


3.2.7 ”和 闵 核 映像 构建 过 程 总 续 


前 面 我 们 简要 讨论 了 内 核 映 像 的 构建 ， 内 核 映 像 的 构建 过 程 大 体 上 
可 以 概 丘 为 “三 次 纺 详 链接 ， 一 次 组 合 "”， 如 图 3-2 所 示 。 


A 、 uncompressed 
: arch/x86/kernel/ i 
| head 320 | SI [arch/x86/bool 
piggy.S compressed/ 
:| head 32.0, 










objcopy larch/x86/boot! gzip 
compressed/ 


vmlinux.bin 


arch/x86/kernel/ 
:| init tasko | ld 
:| init/built-in.o 
kernel/built-in.o 


vmlinux 








compressed 





i 
vmlinux.bin.gz | pl arch/x86/boot/ 
:| compressed/ 
:| piggy.o 


pr ee 、 
setup.bin 
wd Setup.elf Bm 





objcopy larch/x86/boot/ 
compressed/ 





arch/x86/boot/ & 
bzlmage arch/x86/boot/ : |arch/x86/boot/ Oe 
tools/build : vmlinux.bin 








Soom 


图 3-2 内 核 映 像 构建 过 程 
(1) 第 一 次 编译 链接 


kbuild 分 别 编译 各 个 子 目 录 下 的 目标 文件 ， 如 built-in.o、1lib.a《〈 如 采 
有 ) 等 ， 然 后 将 他 们 链接 为 ELE 格 式 的 vmlinux， 并 存放 在 顶层 目录 中 。 
一 步 相 当 于 构建 有 效 载 何 。 


(2) 第 二 次 编译 链接 


kbuild 使 用 工具 objcopy， 将 顶层 目 杂 有 的 vmlinux 复 制 到 
arch/x86/boot/compressed 目 录 下 ， 去 挥 其 中 的 从 写 信 息 、 音 定位 信息 ， 
删除 段 ".comment"， 并 命名 为 vmlinux.bin。 然 后 ，kbuild 将 其 压缩 为 
vmlinux.bin.gz〔 假 设 内 核 采 用 核 默 认 的 gzip 压 缩 方式 ) ， 封 装 到 piggy.S 
中 ， 并 调用 汇编 占 将 其 编译 为 piggy.o， 这 一 步 是 对 有 效 载 傈 进行 了 压 


纵 。 


同时 ，kbuild 也 调用 编译 器 编译 arch/x86/boot/compressed 日 录 下 的 
head_32.c、misc.c 等 作为 内 核 的 非 压 缩 部分， 这 一 步 相 当 于 构建 二 级 推 


然后 ，kbuild 调 用 链接 织 将 压 绚 的 有 效 载 傈 和 二 级 推进 系统 链接 为 
vmlinux。 注 意 这 里 文件 名 虽然 也 是 vmlinux， 但 是 不 要 与 顶层 目录 下 的 
vmlinux 混 消 ，arch/x86/boot/compressed 目 录 下 的 vmlinux 古 二 级 推进 系 
统 和 有 效 载 何 的 组 合 ， 与 项 层 目录 下 的 vmlinux 走 包含 的 天 系 。 


最 后 ，kbuild 调 用 objcopy 将 arch/x86/boot/compressed 目 录 下 的 
vmlinux 复 制 人 到 arch/x86/boot 目 录 下 ， 同 时 将 其 转换 为 禄 二 进 制 格式 ， 并 
命名 为 vmlinux.bin， 为 在 arch/x86/boot 目 录 下 进行 的 最 后 的 组 装 做 好 准 
备 。 


(3) 第 三 次 编译 链接 


kbuild 将 arch/x86/boot 下 的 a20.o、bioscall.o 等 目标 文件 链接 为 
setup.elf， 使 用 objcopy 将 其 转换 为 裸 二 进 制 格式 ， 并 命名 为 setup.bin。 
这 一 步 ， 相 当 于 构建 一 级 推进 系统 。 


(dy = 


最 后 ，kbuild 调 用 内 核 目 融 的 程序 build， 将 vmlinux.bin 和 setup.bin 合 
并 为 bzImage。 全 此 ， 贞 天 器 的 一 级 推进 系统 和 包含 有 效 载 傈 的 二 级 推 
进 系 统 产 配 完 毕 


在 3.1 节 ， 我 们 曾 狙 略 讨论 了 内 核 映 像 的 组 成 。 在 了 解 了 内 核 的 构 
建 过 程 后 ， 让 我 们 近 距 离 的 再 观察 一 下 bzImage。 以 下 是 bzImage 的 链接 
脚本 : 


linux-3.7.4/arch/x86/boot/compressed/vml inux.1lds.s: 


SECTIONS 


| 
i 
.head.text : 1{ 


ead = 。 3 
HEAD TEXT 
ehead = .， 


| 


.rodata..compressed : 1 
*(.rodata,. .compressed) 
| 


| 


| 


.rodata : { 


.data : |{ 


= ALIGN (L1 CACHE BYTES) ; 
-bas 5 1 
bss = .; 


ebss = .;} 
} 


#ifdef CONFIG X86 64 


#end1if 
ENnd 
| 


首先 来 看 链接 脚本 中 的 段 ".head.text"， 其 中 宏 HEAD_ TEXT 的 定义 


linux-3.7.4/include/asm-generic/vmlinux.1ds.h: 


#define HEAD TEXT *!|(.head.text) 


而 结合 文件 head _32.5: 


linux-3.7.4/arch/x86/boot/compressed/head 32.8: 
.text 
#include <linux/init.hs 


HEAD 
ENTRY (startup 32) 


ENDPROC (startup 32) 


“ext 
relocated: 
/i*# 
* Clear BSS (stack 1s currently empty) 
ey 
xorl EaX, Teax 


以 及 宏 HEAD 的 定义 : 


linux-3.7.4/include/linux/init.h: 


Hdeline HEAD .Section "aad ber ar" 


可 见 ， 在 head_32.S 中 ， 了 水 数 startup_32 通 过 宏 HEAD 明 确 要 求 链 接 
器 将 函数 startup_32 链 接 到 有 段 ".head.text"。 而 根据 bzImage 的 链接 脚本 ， 
段 ".head.text" 税 安排 在 了 内 核 映像 的 起 始 位 置 ， 也 就 是 说 ， 函 数 
startup_32 被 链接 到 了 内 核 映 像 的 开头 。 


接 下 来 的 段 ".rodata..compressed"， 和 想必 读者 一 定 猿 出 来 了 ， 这 里 就 
是 放置 内 核 的 压缩 映像 部 分 。 根 据 piggy.S 的 内 容 即 可 见 这 一 点 : 


linux-3.7.4/arch/x86/boot/compressed/pliggy.3: 
.SeEction ".rodata. .compressed'", a",@pProgb1its 
.globl z input len 


2 Input lern = 1721556 


.lncbin "arch/x86/boot/compressed/vml inux.bin,gz" 
input data end: 


在 piggy.S 中 ， 明 确定 义 了 内 核 压缩 部 分 所 在 的 段 


为 ".rodata..compressed"。 


接 下 来 的 ".text"、".data" 等 段 束 古 你 存 内 核 非 压 乡 部 分 的 代码 和 数 
据 了 ， 包 括 misc.o、string.o、cmdline.o、early_serial_console.o 以 及 
head_32.o 中 的 不 属于 段 ".head.text" 的 部 分 。 因 为 内 核 非 压缩 部 分 被 编译 


为 位 置 无 关 (PIC) 代码 ， 所 以 我 们 看 到 其 包含 got 表 。 


综 上 所 述 ，bzImage 的 布局 如 图 3-3 所 示 。 


一 | arch/x86/boot/ 
uncompressed .head.text : compressed/head 32.5. | 


_ HEAD 
ENTRYt startup 32) 


.rodata..compress | ENDPROC(startup 32) 


Uncompressed 
.rodata 


(part of head 32， 
misco shinga 





compressed | 
(vmlinux.bin.gz) 
vmlinux.bin 


bss 





LE ebss 


bzlmage 


图 3-3 内 核 映像 bzImage 的 布局 


3.3 配置 内 核 


内 核 提 供 了 make menuconfig、make xconfig、make gconfig 等 具有 图 
形 界面 的 配置 方式 。make menuconfig 是 图 形 界面 配置 方式 中 最 简陋 的 一 
种 ， 但 是 却 非常 方便 易 用 ， 依 赖 也 最 小 。 其 他 如 make xconfig、make 
gconfig 需 要 QT、GTK+ 等 库 的 文 持 。 在 本 书 中 ， 我 们 使 用 make 
menuconfig 配 置 内 核 ， 其 简单 地 基于 终端 的 图 形 界 面 是 使 用 ncurses 编 写 
的 ， 因 此 需要 安装 libncurses5-dev， 安 装 方法 如 下 : 


root@balsheng:~# apt-get install libncursess-deyv 


3.3.1 交叉 编译 内 核 设 置 


在 默认 情况 下 ， 内 核 构 建 系统 默认 内 核 是 本 地 编译 ， 即 编译 的 内 核 
征 运行 在 与 箱 主 系统 相同 的 体系 架构 上 。 如 果 是 为 其 他 的 以 构 编译 内 
核 ， 即 交叉 编译 ， 我 们 需要 设置 两 个 变量 : ARCH 和 
CROSS_COMPILE。 其 中 : 


令 ARCH 指 明日 标 体系 染 构 ， 即 编 详 好 的 内 核 运行 在 什么 平台 上 ， 
如 x86、arm 或 mips 等 。 


人 CROSS_COMPILE 指 定 使 用 的 交叉 编译 需 的 前 级。 对 于 我 们 的 


4 链 来 说 ， 其 前 级 是 1686-none-linux-gnu-。 


在 顶层 的 Makefile 中 ， 我 们 可 以 看 到 工具 链 中 的 编译 器 、 和 链接 器 等 
均 以 $(CROSS_COMPILE) 作 为 前 级 : 


] 1nux-3 


AS 

LD 

(CC 

CPP 

AR 

NM 
oTRIP 
OBJCOPY 
OBJDUMP 


i 


4/Maketfile.: 


CROSS COMPILE)a 
CROSS COMPILE)1d 
CROSS COMPILE)gcec 
CC) =E 

CROSS COMPILE)a 
CROSS COMPILE)nN 


ep rate 


5 (CROSS COMPILE) obJcopy 
$ (CROSS COMPILE) objdump 


可 以 使 用 多 种 方式 定义 这 两 个 变量 ， 比 如 通过 在 环境 变 


ARCH、CROSS COMPILE; 或 者 每 次 执行 make 时 ， 通 过 


个 变量 的 赋值， 如 : 


量 中 定义 


命名 行为 这 两 


make ARCH=1386 CROSS COMPILE=1686-none-l1]inux-gnu- 


也 可 以 直接 更 改 顶 层 Makefile。 这 种 方法 比较 方便 ， 但 是 
以 免 破 坏 Makefile 文 件 。 本 书 中 我 们 采用 这 种 方式 ， 将 顶层 Makefile 中 


的 如 下 脚本 : 


归 小 心 ;， 


linux-3.7.4/Makefile ; 


ARCH ?= S$ (SUBARCH) 
CROSS COMPILE ?= S$ (CONFIG CROSS COMPILE:"$®"=$%) 


Ea. 


linux-3.7.4/Makefile.: 


ARCH ?= 1386 
CROSS COMPILE ?= 1686-none-linux-gnu- 


3.3.2 ”基本 内 核 配置 


纺 详 内 核 的 第 一 步 是 配置 内 核 ， 但 是 在 我 们 使 用 的 这 一 版 的 内 核 
中 ， 有 成 干 上 万 的 配置 项 ， 并 且 很 多 配置 项 彼此 之 间 存 在 看 非常 兹 密 的 
依赖 天 系 ， 如 条 从 零 开始 一 项 一 项 地 配置 ， 显 然 不 是 一 个 好 办 法 。 


幸运 的 是 ， 在 很 多 情况 下 ， 我 们 都 会 有 一 个 目标 系统 的 老 版 本 内 核 
配置 文件 ， 而 不 必 每 次 都 从 零 开 始 。 在 此 种 情况 下 ， 首 先 将 已 有 的 内 核 
配置 文件 复制 到 顶层 目录 下 ， 并 命名 为 .config; 然后 运行 make 
oldconfig， 其 将 会 询问 用 户 如 何 处 理 变 动 的 内 核 配 置 ， 最 后 用 户 可 以 使 
用 make menuconfig 进 行 微调 。 虽 然 内 核 提 供 make oldconfig 的 方法 ， 但 
是 这 些 方法 并 不 是 完美 的 ， 读 者 需要 小 心 处 理 新 内 核 中 新 增 或 改变 的 配 
置 项 。 


但 是 也 有 很 多 情况 ， 己 有 了 配 半 并 个 理想 ， 我 们 第 要 进行 更 彻 拘 害 
制 ， 或 者 我 们 根本 找 不 到 一 个 合适 的 已 有 配置 。 难 道 我 们 融 别 无 选择 ， 
只 能 从 零 开 始 了 吗 ? 妆 然 不 是 ， 内 核 构 建 系统 已 经 为 开 友 者 考虑 了 这 


已 


一 全 
一 -一 全 


所 


一 方面 内 核 为 很 多 平台 附带 了 默认 配置 文件 ， 保 存在 arch/<arch 
0 其 中 二 arch 二 对 应 具体 的 染 构 ， 如 x86、arm 或 者 mips 
。 比 如 ， 对 于 x86 染 构 ， 内 核 分 别 近 供 了 32 位 和 64 位 的 配 罩 文件 ， 即 


i386_defconfig 和 x86_64_defconfig; 对 于 arm 染 构 ， 内 核 提 供 了 如 
NVIDA 的 Tegra 平 台 的 默认 配置 tegra_defconfigp，Samsung 的 S5PV210 平 
台 的 默认 配置 s5pv210_defconfig 等 。 


如 果 我 们 打算 使 用 x86 的 32 位 的 默认 配置 ， 执 行 下 和 面 命令 即 可 : 
make 1386 defconfig 


如 果 想 使 用 Samsung 的 S5PV210 平 台 的 默认 配置 ， 则 使 用 如 下 命 


make ARCH=arm S5PV210 def config 


如 有 果 对 这 些 内 核 内 置 的 默认 配置 依然 不 满意 ，kbuild 还 提供 了 创建 
一 个 最 小 配置 的 方法 ， 从 某 种 意义 上 讲 ， 这 是 最 彻底 的 定制 方式 了 ， 命 
A 


make allnocontfig 


执行 该 命 令 后 ， 内 核 除 了 选中 必 选 项 外 ， 其 余 全 部 不 选 。 我 们 举 个 
例子 来 展示 这 个 配置 方式 ， 例 如 东 Kconfig 文 件 中 有 如 下 配置 : 


contig A 
def pool Y 


COnfig B 
def bool YY i X86 64 


Conftlg C 
def tristate 了 
select DD 


confidg D 
bool 


SONfg E 
DoolL “config E" 


conflc F 
Dool “config F" 
default YY 


如 果 我 们 在 IA32 上 执行 "make allnoconfig"， 则 内 核 构建 系统 基本 控 
照 如 下 规则 处 理 上 述 各 配置 项 。 


令 config A: 无 条 件 选 中 。 
令 config B: 不 会 和 & 选 中 ， 因 为 平台 不 是 X86 64 架构 。 


令 config C: 无 条 件 选 中 。 男 外 ， 因 为 该 选项 明确 要 求 选中 D， 所 
以 选项 D 也 会 被 选中 。 


令 config E: 不 会 被 选中 。 


仿 config F: 不 会 被 选中 。 虽 然 该 选项 指出 默认 值 "default y"， 但 是 
注意 "default y" 和 "def bool y" 是 有 本 质 区 列 的 ，"def _ bool y" 是 无 条 件 选 
中 ，"default y" 只 是 建议 。 


执行 make allnoconfig 后 ， 生 成 的 配置 文件 .config 如 下 : 


CONFIG A=Y 
CONFIG C=Y 
CONFIG D=Y 
# CONFIG E is not set 
# CONFIG F 1is not set 


在 本 书 中 ， 我 们 基于 make allnoconfig 的 结果 开始 配置 内 核 ， 命 令 如 
下 : 


vita@baisheng:/vita/build/linux-3.7.4$ make allnocontfig 


接 下 来 各 节 中 ， 我 们 以 这 个 基本 配置 为 基础 ， 按 照 需 要 进行 具体 的 
配置 。 希 望 读者 可 以 通过 这 个 过 程 的 学 习 ， 能 够 做 到 举一反三 ， 在 其 体 
的 项 目 中 进行 最 优 的 配置 。 


3.3.3 ”配置 处 理 需 


1. 选 择 处 理 器 型 号 


对 于 x86 染 构 来 说 ， 其 具有 问 后 莱 容 性 ， 较 新 的 处 理 帮 部 文 持 较 早 
的 处 理 右 的 指令 。 因 此 ， 为 较 早 的 处 理 占 开发 的 程序 都 可 以 在 较 新 的 处 
理 堆 上 运行 ， 但 是 反 过 来 则 不 一 定 了 ， 因 为 较 早 的 处 理 带 当 然 不 会 文 持 
较 新 的 处 理 硕 中 的 一 些 指 令 。 


因此 ， 选 择 文 持 越 早 的 处 理 磺 ， 则 内 核 残 可 以 在 更 多 的 机 右上 运 
行 。 对 于 很 多 Linux 友 行 版 ， 通 弟 束 十 依照 这 个 原则 。 比 如 Ubuntu12.10 
的 内 核 配 置 支持 的 处 理 器 型 号 为 Pentium Pro (686) ， 这 样 理 论 上 可 以 
确保 Ubuntu12.10 可 以 运行 在 Pentium Pro 以 后 的 所 有 系列 机 器 上 。 


如 此 选择 虽然 融 来 了 兼容 性 的 好 处 ， 但 是 付出 的 代价 可 能 束 是 丧失 
了 速度 。 比 如 ， 为 Pentium Pro 编 译 的 内 核 ， 只 针对 Pentium Pro 进 行 了 优 
化 ， 显 然 不 能 使 用 最 新 处 理 器 中 的 更 高 级 的 指令 。 


对 于 其 他 架构 亦 如 此 ， 甚 至 有 过 之 而 无 不 及 ， 比 如 都 是 ARM 处 理 
器 ， 但 是 如 果 目 标 平台 是 Freescale iMX 系 列 ， 处 理 器 型 号 显然 不 能 选择 


Samsung 的 S3C 系 列 。 


在 Linux 操 作 系 统 中 ， 可 以 使 用 如 下 命令 查看 处 理 右 的 具体 型 亏 : 


root@baisheng:~# cat /proc/cpuinfo | grep "model namen 
model name : Intel (R) Core (TM) i5-2430M CPU @ 2.40GHz 
model name : Intel (R) Core (TM) i5-2430M CPU @ 2.40GHz 
model name : Intel (R) Core (TM) 15-2430M CEU @ 2.40GHz 
model name : Intel (R) Core (TM) i5-2430M CPU @ 2.40GHz 


下 面 是 配置 内 核 文 持 的 处 理 邢 型 号 的 步骤。 


1) 执行 make menuconfig， 出 现 如 图 3-4 所 示 界 面 。 





图 3-4 配置 处 理 器 型 号 (1) 


2) 在 图 3-4 中 ， 选 择 亲 单项 "Processor type and features"， 出 现 如 图 
3-5 所 示 界 面 。 





图 3-5 配置 处 理 器 型 号 (2) 


3) 在 图 3-5 中 ， 选 择 荣 单项 "Processor family"， 出 现 如 图 3-6 所 示 的 
徊 面 。 


| 


by 亲 区 -Ore ee 2/newer Xeon 


<Select>| 





图 3-6 配置 处 理 器 型 号 (3) 


4) 以 笔者 的 机 和 需 为 例 ， 根 据 前 面 察看 的 CPU 信息 ， 蛙 然 选择 图 3-6 
中 的 "Core 2/newerXeon" 是 最 适合 的 。 如 果 在 列表 中 没有 与 实际 CPU 型 
写 完 全 吻合 的 ， 可 选择 与 它 最 接近 的 一 项 。 


2. 配 置 内 核 文 持 SMP 


如 朱 机 需 有 多 种 CPU (包括 多 核 ) ， 为 了 更 好 地 及 挥 多 各 CPU 的 性 
能 ， 需 要 配置 内 核 文 持 SMP。 下 面 是 配置 内 核 文 持 SMP 的 步 又 。 


1) 执行 make menuconfig， 出 现 如 图 3-7 所 示 的 界面 。 
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图 3-7 配置 SMP (1) 


2) 在 图 3-7 和 种， 选择 且 单 项 "Processor type and features"， 出 现 如 图 
3-8 所 示 的 界面 。 
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图 3-8 配置 SMP (2) 


3) 在 图 3-8 中 ， 选 中 "Symmetric multi-processing Support" 。 


3.3.4 配置 内 核 文 持 模 块 


在 区 入 式 系 统 中 ， 由 于 外 围 设 备 相 对 比较 固定 ， 因 此 ， 在 编 详 内 核 
时 ， 基 本 可 以 硝 定 内 核 需 要 文 持 哪些 特性 ， 例 如 文 持 哪些 使 件 、 文 持 哪 
些 文件 系统 等 。 而 对 于 用 在 PC 系统 上 的 内 核 ， 因 为 个 人 计算 机 中 包含 
的 价 件 二 看 万 列 ， 为 了 提供 更 好 的 莱 容 性 ， 各 家 Linux 友 行 版 的 内 核 部 
尽 可 能 地 包含 更 多 的 功能 ， 文 持 更 多 的 便 件 。 但 是 ， 如 朱 所 有 的 功能 模 
块 和 驱动 全 部 编译 进 内 核 映 像 ， 势 必 千 成 内 核 极 其 硕大 。 以 作者 使 用 的 
Ubuntu12.10 发 行 版 为 例 ， 其 内 核 映 像 大 小 为 ;MB， 而 该 友 行 瞩 中 包含 
的 内 核 模块 的 尺寸 约 为 100MB 左 右 。 也 就 是 说 ， 如 果 把 全 部 的 模块 都 编 
译 进 内 核 映像 ， 内 核 映 像 的 尺寸 大 约 要 增加 100MB， 而 其 中 绝 大 部 分 柑 
块 在 特定 的 一 台 机 器 上 是 根本 不 会 用 到 的 。 


除了 尺寸 上 的 考虑 外 ， 更 大 的 灵活 性 也 是 一 方 和 面 。 比 如 ， 开 友人 员 
在 开 友 未 个 张 动 时 ， 如 琳 使 用 醒 块 机 制 ， 只 需 单 独 编 详 驱 动 ， 然 后 动态 
加 载 ， 即 可 进行 调试 :而 不 必 重 新 编 详 整个 内 核 ， 攻 至 重 司 系统 。 


因此， 在 我 们 编译 的 内 核 中 ， 局 用 内 核 的 动态 加 载 模 岂 符 性 。 下 面 
征 配 置 内 核 文 持 侦 块 机 制 的 步骤。 


1) 执行 make menuconfig， 出 现 如 图 3-9 所 示 的 界面 。 
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图 3-9 配置 内 核 支持 模块 (1) 


2) 在 图 3-9 中 ， 选 中 来 单项 "Enable loadable module support"， 人 允许 
内 核 动态 加 载 模块 ， 出 现 如 图 3-10 所 示 的 界面 。 
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图 3-10 配置 内 核 支 持 模 块 (2) 


3) 在 图 3-10 中 ， 选 中 "Module unloading"， 人 允许 内 核 动 态 凶 载 模 
ke 


3.3.5 配置 便 盘 控制 右 豫 动 


一 般 而 言 ，PC 的 根 文 件 系 统 都 保存 在 硬盘 上 ， 因 此 ， 我 们 需要 配 
置 内 核 的 硬盘 驱动 。 在 笔者 写作 这 本 书 时 ， 大 多 数 现 代 PC 都 使 用 SATA 
接口 的 硬盘 ，SATA 人 硬盘 基本 已 经 全 面 取 代 了 IDE 人 硬盘 。 因 此 ， 我 们 以 
SATA 便 盘 为 例 ， 讨 论 内 核 中 硬盘 驱动 的 配置 。 关 于 SATA 控 制 蕉 驱动 
的 配置 ， 需 要 从 三 个 方面 考虑 。 


(1) 便 极 控制 占有 的 接口 


SATA 控 制 器 使 用 的 是 PCI 接 口 ， 挂 在 PCI 总 线 上 ， 上 所 以 首先 需要 配 
置 内 核 文 持 PCI 总 线 。 


可 以 使 用 lspci 命 令 得 看 SATA 人 硬盘 的 相关 信息 。 下 面 以 笔者 机 和 需 为 
例 ， 执 行 ljspci 命 令 输出 的 关于 SATA 控 制 右 的 相关 信息 : 


root@baisheng:~# lspci -Vv 


00:1f.2 SATA controller: Intel Corporation 6 Series/C200 Series Chipset Family 6 
port SATA AHCI Controller (rev 04) (prog-if 01 [AHCI 1.0]) 


Kernel] driver in use: ahci 


显然 ， 在 0 号 PCI 总 线 上 ， 有 一 个 SATA 控 制 器 ， 工 作 模式 为 AHCI,， 
使 用 的 内 核 驱 动 古 ahci。 


(2) 与 SCSI 层 之 间 的 关系 


在 内 核 中 ，SATA 设 备 裤 实现 为 一 个 SCSI 设 备 ， 如 图 3-11 所 示 。 
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图 3-11 SATA 子 系统 结构 


因此 ， 虽 然 目标 机 器 上 可 能 没有 SCSI 设 备 ， 但 是 如 果 要 支持 SATA 
控制 器 ， 内 核 也 要 配置 文 持 SCSI。 


(3) 撒 层 设备 驱动 


在 图 3-11 中 ， 内 核 将 SATA 驱 动 从 逻辑 上 划分 为 两 层 : 


令 SATA Translation， 这 一 层 负 贡 SCSI 和 SATA 协 议 乙 间 的 翻译 ， 
在 SATA 了 驱动 中 被 封装 为 libata 模 块 。 


争 Low Level Device Driver， 在 SATA Translation 层 下 ， 是 直接 面 对 
设备 的 底层 驱动 。 很 多 SATA 控 制 嚣 均 提 供 两 种 可 选 模 式 ， 一 种 是 模拟 
传统 的 IDE， 通 第 称 为 Compatibility 模 式 ， 这 种 模式 是 为 了 同 后 羔 容 那 
些 较 早 的 不 文 持 SATA 的 操作 系统 ， 另 外 一 种 是 AHCI 模 式 ， 这 种 模式 可 
以 提供 更 好 的 性 能 及 传输 速度 。 对 于 Intel 的 SATA 控 制 器 来 说 ， 内 核 为 
这 两 种 不 同 的 模式 分 别 实现 了 驱动 : ata_piix 和 ahci。ata_piix 驱 动用 于 
Compatibility 模 式 ，ahci 驱 动用 于 AHCI 模 式 。 


从 kbuild 中 有 天 SATA 的 Kconfig 中 ， 我 们 也 可 以 清楚 地 看 到 SATA 控 
制 器 对 PCI 和 SCSI 的 依赖 : 


linux-3.7.4/drivers/ata/Kcontfig. 


menuconfig ATA 
tristate "Serial ATA and Parallel ATA drivers'" 


select SCSI 

config SATA AHCI 
tristate "AHCI SATA support" 
depends on PCI 

config ATA PIIX 


tristate "Intel ESB, ICH, PIIX3, PIIX4 PATA/SATA support" 
depends on PCI 


先 看 配置 项 ATA， 正 如 配置 中 的 描述 "Serial ATA and Parallel ATA 
drivers"， 这 一 项 对 应 于 SATA 和 PATA 设 备 。 注 意 其 中 用 黑体 标识 的 部 
分 ， 这 一 配置 项 是 依赖 SCSI 的 而 且 ATA 是 选择 (select) 依赖 SCSI。 人 也 


束 是 说， 一 旦 配置 内 核 支 持 ATA 设 备 ，kbuild 将 日 动 选中 内 核 的 SCSI 支 


持 。 


再 来 看 配置 项 SATA_AHCI 和 ATA_PIIX， 这 两 项 对 应 的 就 是 前 面 所 
说 的 SATA 控 制 器 的 驱动 ，SATA_AHCI 用 于 驱动 AHCI 模 式 ，ATA_PIIX 
用 于 驱动 Compatibility 模 式 。 根 据 上 面 我 们 用 黑体 标示 的 部 分 ， 可 以 清 
条 地 看 到 ， 这 两 项 均 要 求 内 核 文 持 PCI 总 线 。 


下 面 我 们 就 具体 配置 这 三 个 部 分 。 
1. 配 置 PCI 总 线 


因为 SATA 控 制 器 使 用 的 是 PCI 接 口 ， 所 以 我 们 首先 来 配置 内 核 支 持 
PCI 总 线 。 


1) 执行 make menuconfig， 出 现 如 图 3-12 所 示 的 界面 。 


Processor type and featyres ---> 
power management and ACPI options ---> 





图 3-12 配置 PCI 总 线 (1) 


2) 在 图 3-12 中 ， 选 择 菜 单项 "Bus options"， 出 现 如 图 3-13 所 示 的 界 
面 。 





图 3-13 配置 PCI 总 线 (2) 


3) 在 图 3-13 中 ， 选 中 菜单 项 "PCI support"。PCI 总 线 配 置 完 毕 。 
2. 配 置 SCSI 
接 下 来 配置 SCSI。 


1) 执行 make menuconfig， 出 现 如 图 3-14 所 示 的 界面 。 


| BE | 





| eice orivers a 


图 3-14 配置 SCSI (1) 


2) 在 图 3-14 中 ， 选 择 羔 单项 "Device Drivers"， 出 现 如 图 3-15 所 示 的 
界面 。 
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图 3-15 配置 SCSI (2) 


3) 在 图 3-15 中 ， 选 择 有 六 单项 "SCSI device support"， 出 现 如 图 3-16 所 
示 的 寞 面 。 
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图 3-16 配置 SCSI (3) 


4) 在 图 3-16 中 ， 选 中 "SCSI device support" 和 "SCSI disk support"， 
注意 将 它们 都 编 详 进 内 核 ， 而 不 是 编 详 为 模块 。SCSI 配 置 完 毕 。 


3. 配 置 SATA 控 制 器 驱动 
下 面 来 配置 SATA 控 制 器 驱动 。 


1) 执行 make menuconfig， 出 现 如 图 3-17 所 示 的 界面 。 
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图 3-17 配置 SATA 控 制 器 驱动 (1) 


2) 在 图 3-17 中 ， 选 择 菜 单项 "Device Drivers"， 出 现 如 图 3-18 所 示 的 
界面 。 


Sertal ATA and Parallel ATA drivers BEE 
] Multiple devices driver support (RAID and 





图 3-18 ”配置 SATA 控 制 器 驱动 (2) 


3) 在 图 3-18 中 ， 选 择 "Serial ATA and Parallel ATA drivers" (注意 将 
它 编译 进 内 核 ， 而 不 是 编译 为 模块 )， 出 现 如 图 3-19 所 示 的 界面 。 


<#s> AHCI SATA support 
< > Platform AHCI SATA support (NEWY 
<> Initio 162x SATA support (NEW) 
>  ACard AHCI variant (ATP 8626) (NEW) 
起 玉 silicon Image 3124/3132 SATA support (NEW) 
[*] ATA SFF sypport (for Legacy IDE and PATA) (NEW) 
去 二 二 SFF controllers with custom DMA interface *** 


去 了 Pacific Digital ADMA support (NEW) 
> pacific Digital SATA QStor support (NEW) 
[*] ATA BMDMA support (NEW) 


# SATA SFF COntroLLers with BMDMA *#= 
Intel ESB, ICH, PIIX3, PIIX4 PATA/SATA suyupport 





图 3-19 配置 SATA 控 制 器 驱动 (3) 


4) 笔者 的 机 器 使 用 的 是 Intel SATA 控 制 器 ， 所 以 选择 图 3-19 中 
的 "AHCI SATA support" 和 "Intel ESB, ICH, PIIX3, PIIX4 PATA/SATA 
support"。 前 者 古 工 作 在 AHCI 模 式 的 Intel SATA 控 制 占 的 驱动 ， 后 者 古 
工作 在 Compatibility 模 式 的 Intel SATA 控 制 器 的 驱动 。 注 意 将 它们 也 都 
编译 进 内 核 。 


至 此 ，SATA 控 制 占 的 驱动 配置 完成 。 接 下 来 我 们 编译 内 核 ， 并 将 
编 详 好 的 内 核 保 存在 目标 系统 的 根 文 件 系 统 的 boot 目 录 下 。 


vita@baisheng:/vita/build/linux-3.7.4$ make bzImage 
vita@baisheng:/vita/build/linux-3.7.4$ mkdir /vita/sysroot/boot/ 


vita@baisheng:/vita/build/linux-3.7.4$ cp arch/x86/boot/bzImage\ 
/vita/sysroot/boot/ 


下 面 测 试 新 编 详 的 内 核 。 首 乞 在 虚拟 机 的 sda2 分 区 上 创建 boot 目 
录 ， 用 来 存放 内 核 映 像 : 


root@baisheng-vb:/vita# mkdir boot 


将 新 编 详 的 和 内核 复制 到 虚拟 机 : 


vita@baisheng:/vita/sysroot/boots$s scp bzImage \ 
root@l192.168.56.101: /vita/boot) 


并 在 虚拟 机 GRUB 的 配置 文件 中 添加 如 下 启动 项 : 


/boot/grub/,grub,., cfg 
menuentry 'vita' { 


set root=' (ha0 2) 
linux /boot/bzImage root=/dev/sda2 ro 


注意 将 虚拟 机 的 GRUB 的 配置 文件 grub.cfg 中 的 timeout 都 设置 为 一 个 
正 值 ， 比 如 5s， 这 样 GRUB 才 会 给 我 们 机 会 选择 引导 哪个 系统 。 


然后 重新 局 动 并 进入 vita 系 统 ， 运 行 结果 如 图 3-20 所 示 。 


合生 各 11.10[ 正 在 运行 ] - Oracle VM VirtualBox 


[sdal] i16777216 5ot2-hute logical blocks: 98.58 6BAB8 .00 GiB8) 
[sdal Write Protect is off 
[sda] Write cache: enabled, read cache: enabled, doesn’ tt support DPO 


| 
4B861408 sdalil OO000000-0000-0000-0000-000000000000 
Jo0b176 sdae O0000000—0000-0000- 0000-Q0000000909000 


1, comm: swapperAO Not tainted 3.7.4 #1 
all Trace: 
[<*ciiasO0by] 
Lcledcafby] 


+ panic+Oxrd Ox1io8 

了 mount block rootQxw28.0Ox2393 
[cilO029332>] 3? suyus sigactionOxar Oxf oO 
[<cliAdcbhbo23] 3 mount rootreOwdb. QQxof 
Lci2e4dccri»] ? prepare namespace+QOx1lQe OQxi4a 
Lci039198f 3] 3 suUs_access+Oxif .Ox30 
[<cili9derd43] 3 kernel initQxi1r4d./ Ox270 
[ciz4dc3c2ay] 2? do_early param+Ox7? ?Ox?7? 
[cillia3s?7?3] ?3 ret from kernel thread+QOxib./ tx8 
[clidebbod>] 了 rest init+0Oxb O060 
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图 3-20 配置 SATA 控 制 器 驱动 后 内 核 运行 情况 


根据 内 核 的 输出 信息 可 见 ， 内 核 已 经 正确 识别 了 SATA 硬 盘 。 但 是 
因为 没有 找到 合适 的 文件 系统 挂 载 sda2 分 区 ， 所 以 在 “抱怨 ”No 
filesystem could mount root" 后 出 现 了 "panic"。 因 此 ， 在 下 一 小 站 ， 我 们 
配置 内 核对 文件 系统 的 文 持 。 


3.3.6 ”配置 文件 系统 


内核 文 持 多 种 文件 系统 ， 但 是 由 于 我 们 仅 使 用 Ext4 文 件 系统 ， 所 以 
这 里 仪 配置 内 核 包 仿 Ext4 文 件 系 统 驱 动 模 块 。Ext4 驱 动 是 问 后 莱 容 的 ， 
也 束 是 说 它 也 可 以 张 动 Ext3 和 Ext2 文 件 系统 。 下 面 征 配置 文件 系统 的 步 


又 。 


1) 执行 make menuconfig， 出 现 如 图 3-21 所 示 的 界面 。 
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图 3-21 配置 文件 系统 (1) 


2) 在 图 3-21 中 ， 选 择 菜 单项 "File Systems"， 出 现 如 图 3-22 所 示 的 界 
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图 3-22 配置 文件 系统 (2) 


3) 在 图 3-22 中 ， 选 中 配置 项 "The Extended 4(ext4)filesystem"， 并 将 
其 直接 编译 进 内 核 。 


在 格式 化 Ext4 文 件 系统 时 ， 工 具 mke2fs.ext4 会 默认 文 
持 "huge_file" 特 性 ， 而 该 特性 要 求 内 核 文 持 大 于 2TB 的 块 设备 或 文件 ， 
因此 ， 我 们 配置 内 核 文 持 这 一 特性 。 


1) 执行 make menuconfig， 出 现 如 图 3-23 所 示 的 界面 。 


General setup -=--> 
be Enable loadable module support ---> 


Enable the block layer ---> 
Processor type and featuyures ---> 





图 3-23 配置 支持 大 于 2TB 的 块 设 备 和 文件 (1) 


2) 在 图 3-23 中 ， 选 择 采 早 项 "Enable the block layer"， 出 现 如 图 3-24 
所 示 的 界面 。 


--- Enable the block Layer 
[= support for Large (2TB+) block devices and files 
FE] BLOCK layer SG support v4 

[ ] Block Layer SG support v4 heLper lib 





图 3-24 配置 支持 大 于 2TB 的 块 设备 和 文件 (2) 


3) 在 图 3-24 中 ， 选 中 配置 项 "Support for large(2TB+)block devices 


and files"。 


3.3.7 ”配置 内 核 文 持 ELEF 文 件 格式 


在 上 一 节 ， 我 们 配置 了 内 核 支持 Ext4 文 件 系 统 。 但 是 内 核 从 文件 系 
统 加 载 文件 ， 仅 文 持 文 件 系统 还 是 不 够 的 ， 内 核 还 要 文 持 共 体 的 文件 格 
式 ， 当 前 Linux 系 统 使 用 的 标准 二 进 制 格式 是 ELFE， 因 此 需要 配置 Linux 
文 持 ELF 文 件 格式 。 以 下 是 配置 内 核 文 持 ELEF 文 件 格式 的 步 又。 


1) 执行 make menuconfig， 出 现 如 图 3-25 所 示 的 界面 。 





Power management and ACPI options ---> 

BUS options (PCI etc. - - -> 

Executable file formats Emulations ---> 
[ ] Networking suyupport ---> 


图 3-25 配置 内 核 支 持 ELF 文 件 格 式 (1) 


2) 在 网 3-25 中 ， 选 择 某 单项 "Executable file formats/Emulations"， 
出 现 如 图 3-26 所 示 的 界面 。 





[*] Write ELF core dumps with partial segments (NEW) 
< > Kernel support for a.out and ECOFF binaries 
< > Kernel support for MISC binaries 


图 3-26 配置 内 核 支 持 ELF 文 件 格 式 (2) 


3) 在 图 3-26 中 ， 选 中 配置 项 "Kernel support for ELF binaries"。ELF 
格式 文 持 配置 完毕 。 


在 配置 内 核 支 持 ELF 文 件 格 式 后 ， 我 们 童 新 编译 内 核 并 使 用 新 编译 
的 内 核 引 导 vita 系 统 后 ， 系 统 的 输出 如 图 3-27 所 示 。 


全 四 向 11.10 [正在 运行 ] - Qracle VM VirtualBox 


SCSi 2:Q0:0:0: Ch-RON UBOX LD-ROM | 5 
sd OO:0:0:0: [Lsda] i6777?7216 sie-byte logygical blocks: (8.58 GB.3.00 GiB) 
sd O00:0:90: [sdal] Write Protect is off 
d QO:0:0:0: Lzsda] Write cache: enabled, read cache: enabled, doesn’t support DPFO 
or FUA 
sda: sdail sdar 
:O: [sdal] Attached stsl disk 
Csdaz2}: couldn’t mount as ext3 due to feature incompatibilities 
Csdaz2)}’: couldn tt mount as ext2 due to feature incompatibilities 
tsdaz}: INFO: recowvery regqguired on readonly filesystem 
tsdaz)}: write access will be enabled during recoOwery 
tsdar}: recovuery complete 
tsdac)}): mounted filesyustem with ordered data mode. Opts;: tnull)} 
FS: Mounted root (text4 filesustem?} readonly on device 日 ;ze， 


SWapper/@ Not tainted 3.7.4 #30 


[<xclliedBab>] * panict+Oxrd.Ox16 

[<clleri306»] 3? kernel _ initrOxceI0Oxe ro 
[<cleaad3ce»] 了 do carly paramOxr? i Ox? 7 
[<ciif2a3773] * ret from kernel thread+Oxib./ O29 
[<ciiliebfOQS] ®? rest init+QxwbO-QOx60 
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图 3-27 配置 文件 系统 和 文件 格式 后 内 核 运 行情 况 


根据 内 核 输出 的 信息 可 见 ， 内 核 已 经 识别 出 硬盘 的 分 区 ， 也 识别 出 
了 sda2 分 区 使 用 的 文件 系统 ， 并 使 用 Ext4 文 件 系统 驱动 成 功 挂 载 了 该 分 
区 。 但 是 内 核 在 “ 报 优 ”"No init found..." 后 ， 依 然 出 现 了 "panic"。 那 么 ， 
这 里 的 "init" 指 的 是 什么 呢 ? 我 们 看 一 下 内 核 进入 用 户 空间 的 过 程 : 


有 


Statiec OILIE vord nat Letok yest LDODLO 


人 


kernel _ thread (kernel init, NULL, CLONE FS | CLONE SIGHAND ) ; 


} 


static int ref kernel init{void *unused) 


人 


if (ramdisk execute command) { 
It (!run init process (ramdisk execute command)) 
return Ws 
printk (KERN WARNING "Failed to execute %s\n", 
ramdisk execute command),; 


if (execute command) { 
It (!run init process (execute command)) 
return ‘03 
printk (KERN WARNING "Failed to execute %s. Attempting " 
"defaults...\n'", execute commanaQ) ; 


if (ram Init proceset Lobian/ init", 
Irun init procese("/ete/init") 

( 

( 


Irun init process("/bin/init") || 
Wen Tiltt proceeBt" Din/ ey ) 
return 0:; 


panieoe( No linit foungd, “Try passing inite= OptIion to Kernmnels " 
"See Linux Documentation/init.txt for guidance."); 


疯 数 kernel_init 站 先 笠 试 执行 initramfs 中 的 字符 串 
ramdisk_execute_command 代 表 的 命令 。 有 目前 没有 使 用 initramfs， 上 所 以 这 
个 字符 串 为 室 ， 于 是 其 继续 尝试 到 根 文 件 系 统 中 寻找 和 程序， 首先 其 将 演 


试 寻找 字符 串 execute_command 代 表 的 命令 。 


根据 下 面 代 人 后 : 


11DUXxX-3.7.41/1nm1lt/maln.c ， 

static char *execute command.; 

StatLie nt Tnit Init. SetuB (chnar *str) 
unsigned int 1; 


execute command = str; 


Betup("init=", init setup): 


字符 串 execute_command 代 表 用 户 通 过 内 核 命令 行 参数 "init" 明 确 指 


/boot /grub/grub.cfgq 
menuentry 'vita' { 


set rocts=" (hd0.,2})" 
1inux /boot/bzImage root=/dev/sda2 ro init=/bin/bash 


在 上 和 面 grub 的 配置 文件 中 ， 使 用 黑体 标识 的 部 分 就 是 明确 告诉 内 
核 ， 第 一 个 进程 直接 运行 根 文 件 系 统 中 目录 /bin 下 的 bash。 如 果 用 户 没 
有 通过 命令 行 参 数 "init" 指 定 第 一 个 进程 执行 的 程序 ， 这 个 进程 将 依次 尝 
试 执行 /sbin、/etc、/bin 下 的 init， 最 后 演 试 执行 /bin/sh。 


由 于 目前 根 文件 系统 中 除了 内 核 的 映像 外 没有 任何 文件 ， 因 此 ， 内 
核 找 不 到 任何 程序 ， 所 以 在 报告 "No init found..…" 后 出 现 "panic" 了 。 为 了 
辅助 验证 内 核 的 构建 ， 在 下 一 市 我 们 将 构建 一 个 基本 的 根 文件 系统 。 


3.4 ”构建 基本 根 文件 系统 


3.4.1 根 文 件 系 统 的 基本 目录 结构 


Linux 的 根 文 件 系统 的 目 孙 结构 不 是 随意 


定义 的 ， 而 是 依照 


Filesystem Hierarchy Standard Group 制定 的 Filesystem Hierarchy 


Standard (FHS) 标准 。 从 服务 器 
到 完全 和 人 符合， 但 大 体 上 还 是 遵循 这 个 标准 的 。 


、 个 人 计算 机 到 和 佣 入 却 系 


乡 > 虽 达 不 


FHS 标 准 规定 的 根 文件 系统 的 顶层 目录 如 表 3-2 所 示 。 


表 3-2 FHS 根 文件 系 统 顶 层 的 目录 规范 


目 录 内 容 
/bin 保存 系统 管理 员 与 用 户 均 会 使 用 的 重要 的 命令 
/boot 系统 开机 使 用 的 文件 ， 如 内 核 映像 和 boot loader 的 相关 文件 
/dev 设备 文件 
/etc 系统 配置 
/lib 重要 的 库 文 件 及 内 核 模 块 
/media 可 移动 存储 介质 的 挂 载 点 
/mnt 临时 挂 载 点 ， 当 然 用 户 也 可 以 目 行 选择 一 些 临时 挂 载 点 
/opt 用 户 日 行 安 疲软 件 的 位 置 ， 通 常用 户 也 会 


/sbin 系统 管理 员 使 用 的 重要 的 系统 命令 


选择 将 软件 安装 在 /usr/local 目录 下 


( 续 ) 


目录 内 容 

/tmp 主要 是 正在 执行 的 程序 存放 的 临时 文件 

/usr 包含 系统 中 安装 的 主要 程序 的 相关 文件 ， 类 似 于 MS Windows 操作 系统 中 的 “Program files” 目 录 

"Em 针对 的 主要 十 系 统 运行 过 程 中 经 常 发 生变 化 的 一 些 数 据 ， 比 如 cache 、log、 临 时 的 数据 库 、 打 印 
机 的 队列 等 

/home 用 户 目 录 保 存 的 地 方 

/root root 用 户 的 用 户 目录 


主要 用 在 服务 需 版 本 上 ， 是 很 多 服务 需 软 件 用 来 保存 数据 的 目录 。 比 如 ，www 服务 需 使 用 的 网 页 


资料 就 可 以 放置 在 /srv/www 目录 下 


FHS 标 准 已 经 将 各 个 目录 存放 的 内 容 解释 得 比较 清楚 了， 但 是 还 是 
有 几 个 容易 引起 混 消 的 目录 需要 澄清 一 下 。 


根 文件 系统 中 主要 有 四 处 存放 可 执行 程序 的 目 
录 : /bin、/sbin、msrbin 和 Amsrsbin。 系 统管 理 员 和 普通 用 户 都 使 用 的 重 
要 命令 保存 在 /bin 目 录 下 ， 而 仪 由 系统 管理 员 使 用 的 重要 命令 则 保存 
在 /sbin 目 录 下 。 相 应 的 ， 不 是 很 重要 的 命令 则 分 别 放置 在 /usr/bin 
和 /usr/sbin 目 录 下 。 


同样 的 道理 ， 重 要 的 系统 库 一 般 存 放 在 /lib 目 录 下 ， 其 他 的 库 则 存 
放 在 /usYVlib 目 录 下 。 


3.4.2 ”安装 C 库 


几乎 所 有 程序 都 依赖 C 库 ， 它 是 整个 系统 的 基础 ， 因 此 ， 我 们 首先 
安装 C 库 到 根 文 件 系 统 。 在 2.2.7 节 讨论 编译 构建 系统 的 C 库 时 ， 我 们 看 
到 ，C 库 包含 函数 库 、 各 种 工具 程序 ， 以 及 开发 所 需 的 头 文 件 每 。 而 这 
里 的 文件 系统 只 是 个 临时 系统 ， 所 以 C 库 中 的 各 种 实用 工具 及 
$SYSROOT/usr/share 目 录 下 的 数据 文件 ， 都 不 需要 安装 。 而 且 这 个 临时 
根 文件 系统 亦 不 需要 文 返 开 及 ， 所 以 凡是 开 肥 时 所 需要 的 文件 ， 包 括 头 
文件 、 毅 态 库 、 局 动 文件 等 ， 也 不 需要 安装 。 因 此 ， 最 终 我 们 只 需要 安 
靖 $SYSROOTVlib 目 录 下 的 动态 库 及 相应 的 动态 链接 /加 载 苍 需要 的 符号 
链接 。 


我 们 新 建 一 个 保存 目标 系统 的 根 文 件 系 统 的 rootfs 目 录 ， 并 且 按 照 
FHS 标 准 的 规定 ， 将 C 库 安 疙 在 rootfs/lib 目 录 下 ， 命 令 如 下 : 
vita@baisheng:/vitas mkdir rootfs 


vita@baisheng:/vitas mkdir rootfs/lib 
vita@baisheng:/vitas cp -d sysroot/lib/* rootfs/lib) 


除了 Glibc 中 包含 的 C 库 外 ， 在 前 面 编 译 GCC 时 ， 我 们 也 看 到 ，GCC 
也 将 部 分 底层 函数 封装 到 库 中 ， 有 些 程序 会 使 用 GCC 的 这 些 库 ， 因 此 ， 
我 们 也 将 这 部 分 程序 安装 到 rootfs/lib 目录 中 。 同 样 ， 我 们 也 只 安装 动态 
库 及 其 对 应 的 运行 时 符号 链接 ， 命 令 如 下 : 


vita@baisheng:/vitas cp -QQ \ 
Cross-tool/i686-none-linux-gnu/lib/lib*.so.* [0-9] rootfs/lib/ 


3.4.3 ”安装 shell 


在 安装 C 库 后 ， 构 建 基 本 的 应 用 程序 的 基础 已 经 具备 了 ， 接 下 来 我 
们 需要 为 内 核准 备用 户 空 间 的 程序 了 了。 在 Linux 中 ， 专 门 负 责 局 动 的 软 
件 包 ， 如 System V init 和 Systemd 等 都 提供 一 个 二 进 制程 序 作为 第 一 个 进 
程 执 行 的 用 户 空 间 的 程序 ， 但 十 为 简 蛙 起 见 ， 我 们 使 用 bash shell。 安 六 
bash 的 命令 如 下 : 


vita@baisheng:/vita/builds tar xvf ../source/bash-4.2.tar.gz 
vita@baisheng:/vita/build/bash-4.2$ ./configure --prefix=/usr \ 
--bindir=/bin --without-bash-malloc 
vita@baisheng:/vita/build/bash-4.2$ make 
vita@baisheng:/vita/build/bash-4.2$ make install DESTDIR=$SYSROOT 


这 里 有 一 点 需要 解释 一 下 ， 我 们 虽然 定义 了 环境 变量 DESTDIR 为 
$SYSROOT， 但 是 由 于 bash 的 Makefile 中 有 如 下 脚本 : 


bash-4.2/Makefile. 


DESTLIDIR = 


而 Makefile 中 的 这 个 定义 优先 级 要 比 环境 变量 的 高 ， 所 以 我 们 还 需 


要 退 过 命令 行 参 数 再 次 指定 安装 目录 为 $6SYSROOT。 


使 用 如 下 命令 将 bash 安 装 到 rootfs 中 : 


vita@baisheng:/vitas mkdir rootfs/bin 
vita@baisheng:/vitas cp sysroot/bin/bash rootfs/bin/ 


除了 安装 程序 bash 外 ， 当 然 还 雷 要 安装 bash 依 赖 的 动态 库 。 因 此 ， 
为 了 检查 可 执行 程序 或 动态 库 的 依赖 ， 我 们 编写 了 一 个 脚本 ]ldd: 


/vita/cross-tool /bin/ldad.: 
#!/bin/bash 


LIBDIR="${SYSROOTI /lib ${SYSROOT!/usr/lib 
${CROSS TOOL}/${TARGET}/1ib" 


find () { 
for d in SLIBDIR; do 
found="" 
i 上 SE "elasl" ]: es 
found="${qd} /$1" 
break 
fi 
done 


1f | =n "sfound™" |]; then 

Drintf "S88sss = BA TW $1 stound 
else 

printf "8s%s = (not found) \n™ ™™ $1 


| 


} 


readelf -d $1 | grep NEEDED NA 
| sed -r -e 's/.*Shared library:[ J]+\[(.*) \]/\l/;' \ 
| while read lib; do 
find S$l1ib 
done 


并 为 该 脚本 增加 了 可 换行 权限 : 


vita@baisheng:/vita/cross-tool/bins chmod a+x ldd 
使 用 1dd 脚 本 查看 bash 依 赖 的 动态 库 : 


vita@baisheng:/vitas ldd rootfs/bin/bash 
Iibal HO. =s /Eo/verooe/iliD /Ll .3652 
libgcc 8.80.1 => 
/vita/cross-tool/i686-none-linux-gnu/lib/libgcc s.so.1 
1IboHo.6 sy yita/gsyverootA Lb libc:.g60,6 


根据 脚本 1dd 的 输出 可 见 ，bash 依 赖 动 态 库 libdl、1libc 和 
libgcc_s.so.1， 而 这 几 个 库 都 包含 在 C 库 中 ， 我 们 都 已 经 安装 了 了 。 


在 3.3.7 节 我 们 看 到 ， 如 果 用 户 没 有 通过 内 核 命令 行 参数 "init" 指 定 第 
一 个 进程 运行 的 用 户 空 间 的 程序 ， 则 内 核 依 次 答 试 执行 目 
录 /sbin、/etc、/bin 下 的 init， 最 后 笠 试 执行 目录 /bin 下 的 sh。 因 此 ， 我 们 
在 日 录 /bin 下 建立 一 个 指 辣 bash 有 的 符号 链接 sh， 而 且 ， 这 个 符号 链接 也 


是 FHS 标 准 要 求 的 。 


vita@baisheng:/vita/rootfs/bins ln -s bash sh 


3.4.4” 安 闭 根 文件 系统 到 目标 系统 


接 下 来 ， 我 们 需要 将 文件 系统 安装 到 虚拟 机 上 ， 来 配合 内 核 进行 局 
/je 

当然 ， 如 果 为 了 减少 共 圣 库 和 二 进 制 可 执行 文件 的 大 小 ， 可 以 使 用 
i686-none-linux-gnu-strip 命 令 删 除 ELF 中 运行 时 不 需要 的 从 写 ， 命 令 如 


J 


vita@baisheng:/vitas i686-none-linux-gnu-strip rootfs/lib/* \ 
rootfs/bin/* 


但 是 一 定 不 要 对 crt*.0 等 这 些 局 动 文件 进行 strip， 因 为 这 样 会 市 除 目 
标 文 件 的 符号 表 ， 导 致 链接 器 在 链接 时 找 不 到 符号 。 

接 下 来 我 们 使 用 scp 命 令 ， 将 文件 系统 复制 到 虚拟 机 上 。 因 为 命令 
scp 会 跟随 符号 链接 ， 因 此 ， 我 们 首先 将 文件 系统 打包 ， 然 后 再 使 用 scp 


命令 进行 复制 : 


vita@balsheng: /vita/rootfss tar ZCVE ../rootfs.tgqz 六 
vita@baisheng: /vita/rootfss$s scp ../rootfs,.tgz AN 
root@192.168.56.101: /vital/ 


在 复制 完成 后 ， 在 虚拟 机 上 解 开 压缩 包 : 


root@baisheng-vbh:/vitat# tar xvf rootfs.tqgz 


重 局 系统 后 ， 如 果 一 切 顺 利 ， 用 户 空 间 的 程序 /bin/sh 会 顺利 运行 ， 
如 图 3-28 所 示 。 


合 合 向 11.10 [正在 运行 ] - Oracle VM VirtualBox 


.O00: ATAPI: UBOx CD-—-ROM, 1.0, max UDMA.133 

.OO: conf igured for UPpMA.33 
| 

.OO0: ATA-6: UBOX HARDDISKE, 1.0, max UDMA.133 

.O00: 1brrrelb sectors, multi lia: LBAA40 NGQ Cdepth 3132) 

:OO0: configured for UpMAA133 

i :O00:0: Direct-fccess 六 了 pe 18 PPO: @ ANSI: = 
i 2:0:0:0: CD-—-ROM UBOX CD-ROM 1.90 PQ: @ ANSI: 5 
‘QO:0: Lsdal] 1b?7216 sila-bute loyical blocks: (8.58 GB.8.00 GiB)} 
:O00: [Lsdal] Write Protect is off 

:O00: [zsda] Write cache: enabled, read cache: enabled, doesn’t support DFO 


:O: [sda] fttached stCol disk 
ExT4-fs tsda2}: couldn’ 二 mount as ext3 due to feature incompatibilities 
EXT4-fs Csda2): couldn’t mount as ext2 due to feature incompatibilities 
EXT4-fs tsda2): mounted filesystem with ordered data mode. Dpts: (null) 
UFS: Mounted root (ext4 filesystem}) readonly on device 8:2. 
Freeindg unused kernel memory: 336k freed 
sh: cannot set terminal process group ~—1): Inappropriate ioctl for device 
sh: no job control in this shell 

-和 .2# tsc: Ref ined TSC clocksource calibration: 2370.132 MHz 


Bwitching to clocksource tsc 


: 
| @O2890 O90 





图 3-28 系统 后 进入 shell 


至 此 ， 一 个 基本 的 内 核 已 经 构建 完成 了 。 它 可 以 运行 在 x86 体 系 架 
构 上 ， 可 以 驱动 Intel 的 SATA 便 盘 ， 可 以 识别 EXT 系 列 文 件 系 统 ， 并 内 
置 ELF 文 件 加 载 磊 ， 最 后 成 功 运 行 了 用 户 空 间 的 程序 bash。 


当然 ， 这 仅仅 是 个 开始 ， 我 们 才刚 刚 上 路 。 读 者 可 以 根据 二 要 继续 
扩展 内 核 功能 ， 比 如 ， 后 面 为 了 文 持 网 络 ， 我 们 配置 内 核 文 持 TCP/AP 协 
议 、 配 置 内 核 文 持 网 卡 张 动 等 。 但 征 ， 通 过 这 一 过 程 ， 我 们 也 看 到 ， 从 


头 开 始 编 详 一 个 内 核 并 非 如 想象 般 困 难 。 虽 然 内 核 包罗 万 家 ， 文 持 不 同 
的 体系 结构 ， 有 看 成 干 上 万 的 选项 ， 包 含 数 不 清 的 驱动 ， 这 些 部 让 内 核 
看 起 来 无 比 复 洒 ， 但 是 不 要 衫 这些 表象 迷惑 ， 只 要 以 目标 为 导 癌 ， 上 再 加 
上 一 点 耐心 ， 配 置 一 个 高 效 的 和 内核 不 再 是 梦 。 


第 4 音 ”构建 initramfs 


一 般 而 言 ， 桌 面 、 服 务 器 等 通用 系统 都 使 用 initramfs。 部 分 租 入 式 
系统 中 ， 也 会 使 用 initramfs， 甚 至 有 的 使 用 initramfs 作 为 最 终 的 根 文件 
系统 。 那 么 什么 是 initramfs 呢 ? 很 难 用 一 句 话 将 initramfs 的 作用 描述 清 

， 或 许可 以 将 initramfs 定 位 为 内 核 通 往 根 文件 系统 的 桥梁 


但 是 ， 在 上 一 章 中 我 们 看 到 ， 在 没有 使 用 initramfs 的 情况 下 ， 内 核 
也 已 经 成 功 挂 载 了 根 文件 系统 并 进入 了 用 户 空 间 。 因 此 ， 我 们 不 禁 会 产 
生 疑 问 : 既然 内 核 不 用 信 助 这 座 桥 梁 束 能 到 达 彼 尾 ， 为 什么 还 要 使 用 
initramfs 呢 ? 是 不 是 多 此 一 举 ? 


这 一 章 就 来 回答 这 个 问题 。 本 章 先 后 讲述 了 为 什么 要 使 用 
initramfs; 接 独 前 述 了 initramfs 的 工作 原理 ;然后 从 零 开始 ， 构 建 了 一 
个 initramfs， 其 中 将 讨论 内 核 如 何 做 到 动态 加 载 用 户 空 间 的 驱动 ， 如 何 
让 冷 搬 拔 (coldplug) 设备 也 如 热 插 拔 (hotplug) 设备 一 样 ， 可 以 动态 
加 载 用 户 空间 的 驱动 等 等 ， 最 后 讨论 如 何 从 initramfs 切 换 到 真正 的 根 文 
件 系 统 。 


4.1 ”为 什么 需要 initramfs 


在 引导 过 程 的 最 后 ， 和 内核 局 动 第 一 个 用 尸 进程 ， 内 核 需 要 访问 根 文 
件 系 统 ， 加 载 相 应 的 可 执行 程序 。 这 束 要 求 内 核能 够 正确 驱动 根 文 件 系 
统 所 在 设备 。 所 以 在 上 一 草 中 ， 我 们 将 SATA 和 磁盘 张 动 编 详 进 了 和 内核， 
为 的 就 是 内 核 可 以 正确 驱动 硬盘 。 


寻找 根 文 件 系统 的 过 程 中 ， 我 们 需要 车 夸 以 下 两 种 情况 


6 一， 除非 是 一 个 专用 系统 ， 目 标 系 统 的 硬件 平台 是 固定 不 变 的 ， 
否则 ， 对 于 一 个 通用 操作 系统 ， 比 如 Linux 的 曲面 发 行 版 ， 将 运行 在 各 
种 不 同 的 人 硬件 平台 上 。 因 此 ， 根 文件 系统 可 能 存储 在 各 种 各 样 的 介质 
上 上 ， 比 如 IDE 人 硬盘 、SATA 人 硬盘 、SCSI 人 硬盘 、Flash 存 储 器 ， 以 及 随 着 技 
术 的 及 展 ， 不 断 出 现 的 新 的 存储 设备 。 为 了 能 够 兼容 更 多 的 硬件 平台 
显然 系统 需要 文 持 尽 可 能 多 的 存储 设备 。 但 是 如 果 将 所 有 这 些 设备 的 驱 
动 全 部 编译 进 内 核 ， 显 然 不 是 一 个 好 办 法 。 因 为 对 于 茶 个 特定 的 硬件 平 
人 台 ， 可 能 只 需要 一 个 驱动 即 可 ， 内 核 中 的 其 他 驱动 根本 用 不 上 ， 将 它们 
编译 进 内 核 只 会 徒 增 内 核 的 尺寸 、 占 用 内 存 空间 ， 尤 其 对 于 一 些 内 存 或 
者 存储 介质 空间 有 限 的 设备 ， 这 个 问题 尤为 明显 。 于 是 将 这 些 驱 动 编译 
为 模块 ， 存 储 在 根 文件 系统 中 ， 按 需 载 入 内 存 是 一 个 解决 问题 的 办 法 。 


第 二 ， 根 文件 系统 可 能 不 在 一 个 简单 的 硬盘 上 ， 比 如 当 使 用 磁盘 阵 


列 RAID 时 ， 根 文件 系统 可 能 横 跨 几 个 存储 设备 ， 或 者 根 文 件 系 统 在 某 
个 网 络 设备 上 。 以 使 用 NFS 挂 载 根 文件 系统 为 例 ， 除 了 要 支持 网 卡 驱 动 
外 ， 还 要 进行 网 络 配置 ， 甚 至 还 要 进行 网 络 认 证 。 某 些 根 文 件 系统 经 过 
压缩 、 加 密 ， 在 挂 载 前 需要 解压 缩 、 解 密 等 操作 。 如 果 这 些 都 由 内 核 处 
理 ， 将 会 使 内 核 变 得 弄 利 复 休 ， 继 而 可 能 导致 内 核 的 稳定 性 、 可 靠 性 、 

灵活 性 等 一 系列 的 问题 。 因 此 ， 将 复杂 的 操作 移 到 用 户 空间 是 解决 上 述 
问题 的 一 个 思路 。 


但 是 ， 无 论 是 将 驱动 编 详 为 模块 ， 还 是 将 处 理 如 RAID 挂 载 的 程序 
存储 在 文件 系统 上 ， 都 会 导致 一 个 鸡 和 香 的 问题 : 内 核 要 加 载 这 些 模 块 
或 者 运行 这 些 程 订 才 能 正确 识别 根 文件 系统 所 在 的 设备 ， 但 是 保存 这 些 
模块 或 者 程序 的 根 文件 系统 义 存 储 在 这 些 设备 上 。 


为 了 解决 上 述 问题 ， 内 核 开 友 者 们 设计 了 initramfs 机 制 。initramfs 

是 一 个 临时 的 文件 系统 ， 其 中 包含 了 必要 的 设备 如 便 盘 、 网 卡 、 文 件 系 
统 等 的 张 动 以 及 加 载 张 动 鸭 工具 及 其 运行 环境 ， 比 如 基本 的 C 库 ， 动 态 
库 的 链接 加 载 喜 等 等 。 同 时 ， 那 些 处 理 根 文件 系统 在 RAID、 网 络 设备 
上 的 程序 也 存放 在 initramfs 中 。 由 第 三 方程 序 〈 如 Bootloader) 负 贡 将 
initramfs 从 便 盘 装载 进 内 存 。 以 驱动 便 盘 为 例 ， 内 核 束 不 必 再 从 便 税 ， 
而 征 从 已 经 加 载 到 内 存 的 initramfs 中 获取 硬盘 控制 旭 等 相关 张 动 了 ， 继 
而 可 以 驱动 便 盘 ， 访问 便 盘 上 的 根 文件 系 统 ， 从 而 解决 了 前 面 提 到 的 鸡 
和 重 的 矛盾 。 


在 初始 化 的 最 后 ， 内 核 运行 initramfs 中 的 init 程 序 ， 该 程序 将 探测 硬 
件 设 备 、 加 载 驱动 ， 挂 载 真 正 的 文件 系统 ， 执 行文 件 系 统 上 
的 /sbin/init， 进 而 切换 到 真正 的 用 尸 空 间 。 真 正 的 文件 系统 挂 载 后 ， 
initramfs 即 完成 了 使 命 ， 其 占用 的 内 存 也 会 被 释放 。 


4.2 initramfs 原 理 探讨 


在 2.4 以 及 更 早 版 本 的 内 核 中 ， 内 核 使 用 的 是 initrd。initrd 是 基于 
ramdisk 技 术 的 ， 而 ramdisk 就 是 一 个 基于 内 存 的 块 设备 ， 因 此 initrd 也 县 
有 块 设 备 的 一 切 属 性 。 比 如 initrd 容 量 古 固定 的 ， 一 旦 创建 initrd 时 设 害 
了 一 个 大 小 ， 就 不 能 再 进行 动态 调整 。 而 且 ， 如 同 块 设备 一 样 ，initrd 需 
要 按照 一 定 的 文件 系统 格式 进行 组 织 ， 因 此 制作 initrd 时 需要 使 用 如 
mke2fs 这 样 的 工具 “格式 化 "initrd， 访 问 initrd 时 需要 通过 文件 系统 驱动 。 
更 重要 的 是 ， 虽 然 initrd 是 一 个 伪 块 设备 ， 但 是 从 内 核 的 角度 看 ， 其 与 真 
实 的 块 设备 并 无 区 别 ， 因 此 ， 内 核 访 问 initrd 也 需 使 用 绥 存 机 制 ， 显 然 这 
是 多 此 一 淮 的 ， 因 为 本 里 initrd 束 在 内 存 中 。 


鉴于 ramdisk 机 制 的 种 种 限制 ，Linus Torvalds 提 出 了 一 个 想法 : 能 
侍 将 cache 当 作 一 个 文件 系统 直接 挂 载 使 用 ? 基于 这 个 想法 ，Linus 
Torvalds 基 于 已 有 的 绥 存 机 制 实现 了 ramfs。ramfs 与 ramdisk 有 着 本 质 的 
区 别 ，ramdisk 本 质 上 是 基于 内 存 的 一 个 块 设备 ， 而 ramfs 是 基于 绥 存 的 
一 个 文件 系统 。 因 此 ，ramfs 去 除了 前 述 块 设备 的 一 些 限制 。 比 如 ， 
ramfs 根 据 其 中 包含 的 文件 大 小 可 目 由 伸缩 :增加 文件 时 ， 目 动 分 配 内 
存 ; 删除 文件 时 ， 自 动 释放 内 存 。 更 重要 的 是 ，ramfs 是 基于 已 有 的 组 
存 机 制 ， 因 此 不 必 再 像 ramdisk 那 样 需要 和 缓存 之 间 进 行 多 余 的 复制 一 
环 。 


伴随 看 ramfs 的 出 现 ， 从 2.6 开 始 ， 内 核 开 发 人 员 基 于 ramfs 开 发 了 


initramfs 葵 代 initrd。 那 么 initramfs 是 怎样 工作 的 呢 ? 


当 2.6 版 本 的 内 核 引 叶 时 ， 在 挂 载 真 正 的 根 文件 系统 之 前 ， 自 和 完 将 
挂 载 一 个 名 为 rootfs 的 文件 系统 ， 并 将 rootfs 的 根 作为 虚拟 文件 系统 目录 
树 的 总 根 。 那 么 为 什么 要 使 用 rootfs 这 么 一 个 中 间 过 程 呢 ?原因 之 一 还 
是 为 了 解决 鸡 和 梨 的 问题 。 内 核 毅 要 根 文件 系统 上 的 驱动 以 及 程 厅 来 驱 
动 和 挂 载 根 文件 系统 ， 但 是 这 些 驱 动 和 程序 有 可 能 没有 编 详 进 内 核 ， 而 
在 根 文件 系统 上 。 如 来 不 借助 第 三 方 ， 内 核 是 没有 办 法 挂 载 真正 的 根 文 
件 系统 的 。 而 rootfs 昌 然 名 称 为 rootfs， 但 是 并 不 是 什么 新 的 文件 系统 ， 
事实 上 ， 其 束 是 一 个 ramfs， 只 不 过 换 了 一 个 名 称 。 换 人 句 话 说 ，rootfs 是 
在 内 存 中 的 ， 内 核 不 需要 特殊 的 驱动 束 可 以 挂 载 rootfs， 所 以 内 核 使 用 
rootfs 作 为 一 个 过 小 的 桥梁 。 


在 挂 载 了 rootfs 后 ， 内 核 将 Bootloader 加 载 到 内 存 中 的 initramfs 中 打 
包 的 文件 解压 到 rootfs 中 ， 而 这 些 文件 中 包含 了 驱动 以 及 挂 载 真正 的 根 
文件 系统 的 工具 ， 内 核 通过 加 载 这 些 驱 动 、 使 用 这 些 工 具 ， 实 现 了 挂 载 
真正 的 根 文 件 系统 。 此 后 ，rootfs 也 完成 了 历史 使 命 ， 被 真正 的 根 文 件 
系统 覆盖 〈overmount) 。 但 是 rootfs 作 为 虚拟 文件 系统 目录 树 的 总 根 ， 
并 不 能 被 凶 载 。 但 是 这 没有 关系 ， 前 面 我 们 已 经 谈 到 了 ，rootfs 基 于 
ramfs， 删 除 其 中 的 文件 即 可 释放 其 占用 的 空间 。 


4.2.1 挂 载 rootfs 


在 讨论 具体 的 挂 载 rootfs 时 ， 因 为 涉及 了 一 些 文件 系统 相关 的 概 
念 ， 因 此 ， 为 了 更 好 地 理解 文件 系统 相关 的 概念 ， 我 们 有 必要 先 来 了 解 
一 下 文件 系统 的 物理 组 织 结 构 ， 以 期 对 这 些 抽象 的 概念 有 个 具体 的 认 


识 


AAANO 


以 ExtX〈X=2,3,4) 文件 系统 为 例 ， 其 在 存储 介质 上 按照 图 4-1 所 示 
进行 组 织 。 虽 然 用 于 不 同 操作 系统 的 文件 系统 其 物理 存储 结构 是 不 同 
的 ， 但 是 Linux 的 虚拟 文件 系统 通过 为 这 些 文件 系统 建立 中 间 适 配 层 ， 
模拟 这 里 介绍 的 概念 来 实现 对 这 些 文件 系统 的 支持 。 
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图 4-1 ExtX 文 件 系统 的 组 织 结构 


I ND 


ExtX 文 件 系 统 使 用 块 (Block) 作为 基本 存储 单元 。ExtX 支 持 
1024、2048 和 4096 字 节 大 小 的 块 ， 块 的 大 小 是 在 创建 文件 系统 时 指定 
的 ， 如 有 条 没有 明确 指出 ，mke2fs 将 使 用 黑 认 大 小 。ExtX 文 件 系 统 将 整个 
分 区 分 成 多 个 块 组 〈Block Group) ， 除 了 最 后 一 个 块 组 ， 其 他 块 组 都 包 
含 相同 数量 的 块 。 下 面 介 绍 每 个 块 组 包含 的 部 分 


岂 


(1) 超级 块 (Super Block ) 


超级 块 搬 述 整个 文件 系统 的 信息 ， 包 括 Inode 忌 数 ， 容 内 Inode 数 


量 ， 每 个 块 组 包 侣 的 mode 的 数量 ， 块 的 总 数 ， 衬 朵 其 的 数量 ， 每 个 块 
组 包含 的 块 的 数量 ， 块 的 大 小 ; 挂 载 的 次 数 、 最 近 一 炊 挂 载 的 时 间 等 


(2) 抉 组 摘 述 符 〈Group Descriptors) 


块 组 描述 符 包 含 所 有 块 组 的 描述 。 每 个 块 组 描述 符 存 储 一 个 块 组 的 
拍 述 信息 ， 包 括 块 组 中 块 位 图 所 在 的 块 、 索 引 节 扣 位 图 所 在 的 块 、 索 引 
市 扩 表 所 在 的 块 等 等 。 


(3) 块 位 图 (Block Bitmap) 


块 位 图 用 来 手 述 块 组 中 哪些 块 已 用、 哪些 块 空 几 。 其 中 每 个 位 对 应 
本 块 组 中 的 一 个 块 ， 这 个 位 为 1 表示 该 块 已 用 ， 为 0 表示 该 块 空 有 可用。 


(4) 索引 市 点 位 图 (Inode Bitmap) 


和 块 位 图 类 似 ， 索 引 节 点 位 图 用 来 摘 述 索引 节点 表 中 哪些 Inode 己 
用 、 哪 些 Inode 空 。 其 中 每 个 位 对 应 索引 节点 位 图 中 的 一 个 Inode， 这 
个 位 为 1 表示 该 Inode 己 用 ， 为 0 表示 该 Inode 空 闪 可 用 。 


(5) 索引 节点 表 (Inode Table) 


一 个 文件 除了 需要 存储 数据 以 外 ， 一 些 摘 述 信息 也 需要 存储 ， 如 文 
件 关 型 〈 币 规 文件 、 目 录 等 ) 、 权 限 、 文 件 大 小 、 创 建 /修改 /访问 时 间 
和 等， 这些 信 息 和 存储 在 Inode 中 而 不 是 数据 块 中 。 每 个 文件 部 有 一 个 对 应 


的 Inode， 一 个 块 组 中 的 所 有 Inode 组 成 了 索引 节点 表 。 除 了 文件 属性 信 
轧 外 ，Inode 中 还 记录 了 存储 文件 数据 的 数据 块 。 


(6) 数据 块 (Data Block ) 


数据 块 中 存储 的 就 是 文件 的 数据 。 但 是 对 于 不 同 的 文件 类 型 ， 数 据 
块 中 存储 的 内 容 古 个 同 的 ， 以 第 规 文 件 和 目录 为 例 : 


令 对 于 音 规 文件 ， 数 据 块 中 存储 的 是 文件 的 数据 。 


仿 对 于 目录 ， 数 据 块 中 存储 的 十 该 目 录 下 的 所 有 文件 名 和 子 目 录 


当然 了 ， 不 是 所 有 的 文件 都 需要 数据 块 ， 如 设备 文件 、socket 等 特 
殊 文件 将 相关 信息 全 部 保存 在 Inode 中 ， 就 不 需要 数据 块 存储 数据 。 


因为 超级 块 和 块 组 揪 述 人 符 是 文件 系统 的 关键 信息 ， 所 以 每 个 块 组 中 
部 包含 一 份 见 余 的 备份 。ExtX 文 件 系 统 也 允许 在 人 条 些 特殊 的 情况 下 ， 除 
了 第 0 个 块 组 外 ， 其 余 的 块 组 可 以 不 包含 超级 块 和 块 组 插 述 从 的 备份 。 
用 户 和 在 创建 文件 系统 时 可 以 通过 命令 行 参数 香 诉 工具 mke2fs。 


Linux 的 虚拟 文件 系统 将 文件 系统 组 织 为 树 形 结构 。 在 初始 化 阶 
段 ， 内 核 挂 载 rootfs 文 件 系 统 ， 虚 拟 文 件 系统 从 无 到 有 ，rootfs 的 根 作 为 
虚拟 文件 系统 这 棵 大 树 中 的 第 一 个 市 点 ， 目 然 成 为 所 有 后 来 创建 的 节操 
的 祖先 。 也 束 是 说 ， 虚 拟 文 件 系 统 目 录 树 的 根 驶 是 rootfs 的 根 。 


本 质 上 ，rootfs 就 是 一 个 ramfs 文 件 系 统 ， 根 据 下 面 rootfs 的 文件 系统 
类 型 用 定义 就 可 看 出 这 一 后 : 


sp ob se My RE Wf js 


static struct file system type rootfs fs type = { 
.name WODttea". 
.MOount 
和 二 间 晤 开 - 


rootfs mount, 
Kill litter super, 


i | 


static struct dentry *rootfs mount (struct 人 Le system type 
*fs type, int flags, const char *dev name, void *data,) 


return mount nodevl(fs type, flags|MS NOUSER, data, 
ramfs fill super); 


根据 rootfs 中 mount 的 有 具体 实现 rootfs mount 可见 ， 创 建 rootfs 超 
级 块 使 用 的 函数 恰恰 是 创建 ramfs 文 件 系统 的 函数 ramfs_fill super， 这 从 
侧面 表明 了 rootfs 束 是 ramfs 。 





在 内 核 引 导 过 程 中 ， 将 调用 mnt_init 挂 载 rootfs， 人 代码 如 下 所 示 : 


linux-3.7.4/fs/namespace.c.: 


VOld ”小 mnt 1init (void,) 


| 


init rootfts!()}; 
Int mount treety} 


mnt_init 首 先 调用 init_rootfs 同 内 核 中 注册 了 rootfs 文 件 系 统 ， 代 但 如 
下 所 示 : 


]inux-3.7.4/fs/ramfs/inode.ce: 
int 1init 1init rootts (vold) 
人 


err = reglster fllesysteml(l&krootfs fs 七 YPe) ; 


然后 ，mnt init 调 用 init mount tree 挂 载 rootfs， 代 码 如 下 所 示 : 


linux-3.7.4/fs/namespace.c: 
static void init init mount tree (void) 


| 


struct vfsmount *mnt:; 
struct mnt namespace *nes; 
struct path root, 


mnt = do kern mount {"rootfs", 0 "rootfs"; NULDL); 


roOot .mnt = mnt.; 
root .dentry 一 mnt->mnt OoOt 


set fs pwd(lcurrent=>fs, &root); 
SeEt ts rTOGEICUrTFeNt=->f8: root}; 


挂 载 rootfs 的 过 程 是 由 do_Kkern_mount 来 完成 的 ， 访 函数 所 作 的 工作 
主要 有 以 下 几 个 方面 。 


(1) 创建 代表 rootfs 的 mount 


Linux 的 文件 系统 是 按照 树 形 组 织 的 ， 不 同 的 文件 系统 都 可 以 挂 载 
到 这 个 树 中 的 任何 一 个 目录 上 来 。 内 核 使 用 数据 结构 mount 记 录 具 体 的 
文件 系统 与 虚拟 文件 系统 这 株 大 树 之 间 的 关系 ，mount 起 到 一 个 承 上 局 
下 的 作用 ， 其 中 的 mnt_mountpoint 指 同文 件 系统 的 挂 载 点 ，mnt_parent 
指向 挂 载 点 所 在 文件 系统 的 mount，mnt_root 指 向 要 挂 载 的 文件 系统 的 
根 。 所 以 do_kern_mount 需 要 为 rootfs 创 建 一 个 mount， 因 为 rootfs 是 整个 
虚拟 文件 系统 中 第 一 个 挂 载 的 文件 系统 ， 所 以 这 个 mount 实 例 是 没有 父 
亲 的 ， 其 指向 父亲 mount 成 员 的 mnt_parent 指 向 其 自身 ， 指 向 rootfs 挂 载 


上 太 的 成 员 mnt_mountpoint 指 同 rootfs 目 己 的 根 mnt_root。 
(2) 创建 rootfs 的 超级 块 


超级 块 用 于 插 述 整个 文件 系统 信息 ， 人 系 种 意义 上 ， 超 级 块 束 代表 了 
整个 文件 系统 ， 所 以 挂 载 文 件 系 统 时 ， 需 要 创建 超级 块 。 对 于 一 个 第 规 
的 文件 系统 ， 内 核 将 从 存储 介质 上 读 入 超级 块 信息 。 但 是 ramfs 古 一 个 
基于 内 存 的 文件 系统 ， 并 不 存在 所 谓 的 存储 介质 ， 但 是 前 面 我 们 讨论 的 
ExtX 的 文件 系统 的 基本 概念 依然 是 适用 的 ，ramfs 虽 然 不 能 从 存储 介质 
上 读 入 超级 块 信息 ， 但 是 会 柑 拟 出 一 个 超级 块 。 


(3) 创建 rootfs 根 节点 的 Inode 


内 核 也 需要 从 文件 系统 中 读 入 rootfs 文 件 系 统 根 节点 的 Inode 信 息 。 


但 是 ， 与 创建 超级 块 同样 的 道理 ， 对 于 ramfs 来 说 ， 也 是 在 内 存 中 模拟 


一 个 根 季 点 的 mode 信 息 。 
(4) 创建 rootfs 根 市 点 的 dentry 


虽然 在 文件 系统 中 ， 每 个 文件 都 有 一 个 Inode《〈 对 于 那些 没有 的 ， 
Linux 将 模拟 Imode， 以 使 这 些 文件 系统 能 够 挂 载 到 虚拟 文件 系统 中 ) ， 
但 是 这 个 Inode 主 要 是 记录 文件 的 数据 块 以 及 属性 信息 ， 而 并 没有 记录 
文件 间 关 系 的 信息 。 所 以 ， 内 核 设计 了 结构 体 dentry，dentry 中 记录 了 该 
文件 的 父 布 点 和 子 广 把， 从 而 可 以 将 文件 挂 载 到 虚拟 文件 系统 树 中 。 
dentry 在 物理 存储 介质 中 并 没有 对 应 的 实体 ， 而 只 存在 于 内 存 中 。 为 了 
提高 搜索 文件 的 效率 ， 内 核 会 缓存 文件 系统 中 最 近 访 问 的 dentry。 


挂 载 rootfs 后 ， 内 核 初始 虚拟 文件 系统 的 结构 如 图 4-2 所 示 。 
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图 4-2 挂 载 tootfs 后 内 核 初 始 虚 拟 文 件 系 统 的 结构 


在 虚拟 文件 系统 中 ， 通 过 文件 系统 的 超级 块 、 文 件 系统 的 根 节 点 ， 
再 加 上 文件 的 dentry， 束 可 以 在 虚拟 文件 系统 中 唯一 确定 文件 的 位 置 
了 。 为 了 程序 实现 上 的 方便 ， 内 核 中 设计 了 结构 体 vfsmount 和 path。 
vfsmount“ 封 闻 ” 了 文件 系统 的 超级 其、 文件 系统 的 根 节 氮 等 。path“ 封 


痿 ”了 mount 和 dentry。 


事实 上 ， 虚 拟 文件 系统 这 株 代 表 整 个 文件 系统 的 大 树 的 根 对 用 户 并 
不 可 见 ， 我 们 平时 在 进程 中 所 见 到 的 根 目录 ， 仪 是 这 标 树 上 的 一 个 分 文 
而 已 。 因 此 我 们 看 到 内 核 中 文件 系统 中 有 namespace 的 概念 ， 就 是 每 个 
进程 都 有 属于 目 己 的 文件 系统 空间 ， 现 实 中 多 数 进程 的 文件 系统 的 
namespace 都 是 相同 的 。 进 程 在 任务 结构 体 task_struct 中 的 fs_struct 中 记录 
进程 的 文件 系统 的 根 ， 也 吏 征 进程 鸭 文件 系统 的 namespace， 
init_mount_tree 调 用 set_fs_root 束 是 这 个 目的 。 当 然 ， 此 时 的 current 指 问 


的 是 内 核 的 原始 进程 ， 即 进程 0。 


至 此 ， 通 过 挂 载 rootfs， 虚 拟 文 件 系统 的 根 目录 已 经 建立 起 来 ， 根 
目录 已 经 可 以 容纳 文件 了 。 所 以 ， 接 下 来 内 核 解 压 initramfs 的 内 容 到 虚 
拟 文件 系统 的 根 中 ， 利 用 initramfs 中 的 内 容 挂 载 并 切换 到 真正 的 根 文件 
系统 。 


4.2.2 ”解压 initramfs 人 ljrootfs 


在 挂 载 了 rootfs 后 ， 内 核 将 Bootloader 加 载 到 内 存 中 的 initramfs 中 的 
文件 解压 到 rootfs 中 。 而 这 些 文件 中 包含 了 驱动 以 及 挂 载 真 正 的 根 文件 
系统 的 工具 ， 内 核 通 过 加 载 这 些 驱 动 、 使 用 这 些 工 具 实 现 挂 载 真 正 的 根 
文件 系统 。 


一 旦 配置 内 核 文 持 initramfs， 那 么 内 核 将 编 详 文件 initramfs.c， 脚 本 
如 下 所 未 : 


linux-3.7.4/init/Makefile 


obj-$ (CONFIG BLK DEV INITRD) += initramfs.o 
而 在 文件 initramfs.c 中 ， 我 们 可 看 到 如 下 代码 : 


linux-3.7.4/init/initramfes.,c 


rootfs initcall (populate roottfs).; 


宏 rootfs_initcall 告 诉 编译 颖 将 疯 数 populate_rootfs 链 接 在 
段 ".initcall" 部 分 。 在 内 核 初 始 化 时 ， 函 数 do_basic_setup 调 用 
do_initcalls， 而 do_initcalls 执 行 段 ".initcall" 中 包含 的 图 数 ， 所 以 initramfs 
在 此 时 被 解 压 到 rootfs 中 。 


populate_rootfs 解 压 initramfs 的 代码 如 下 所 示 : 


Linnz=3.7 ,4/1init /initramfs,e 


etatle Tnt. . nt Topulate TootES(VOLdG) 
( 

char *err = Unpack to rootfs( initramfs start, \ 

initramfs size); 
1 
panicl(err); /* Failed to decompress INTERNAL initramfs */ 

if (timittrd start}) 4 

#ifdef CONFIG BLK DEV RAM 


#else 


printk{KERN INEO Unpacking initramfss ,s\n"); 
err = Unpack to rootfsl (char *)initrd start, 
initrd end, = nitrd start)s 
#endif 


| 


return 0:; 


根据 populate_rootfs 的 代码 可 见 : 


1) populate_rootfs 首 先 调 用 unpack _to_rootfs 将 内 核 内 置 的 initramfs 
解压 到 rootfs 中 ; 


2) 接 下 来 ， 如 果 变 量 initrd_start 不 为 0， 那 么 说 明 还 有 一 个 外 部 的 
initramfs 退 过 Bootloader 加 载 71， 内 核 将 这 个 外 部 的 initramfs 也 释放 到 
rootfs 中 。 其 中 CONFIG_BLK_DEV_RAM 是 对 应 于 使 用 ramdisk 机 制 的 情 
况 ， 我 们 不 关心 这 种 情况 。initrd_start 是 initramfs 被 加 载 到 内 存 中 的 起 始 
位 置 。initramfs 通 名 作为 一 个 独立 的 外 部 文件 存在 ， 并 通过 Bootloader 加 
载 到 内 存 。 


事实 上 ， 内 核 也 允许 将 initramfs 和 内 核 映 像 构建 在 一 起 ， 统 一 通过 
内 核 加 载 ， 使 用 的 方法 是 :首先 将 initramfs 的 内 容 保存 到 一 个 目录 ; 然 
后 将 这 个 目录 指定 给 kbuild，kbuild 将 使 用 上 自 带 的 辅助 程序 gen_init_cpio 
将 其 压 绾 为 initramfs;， 最 后 链接 到 内 核 映 像 的 段 ".init.ramfs" 中 。 这 种 方 
法 的 配置 方式 如 图 4-3 所 示 。 


| Kernel->user Space relay support (1 yt 
*] Initial RAM filesystem and RAM disk Li tint trad support 
lvita/initramfs) Initramfs souree file(s) 
【日 ) User ID to map to © (user rooty (NEW) 


(©) Group ID to map to 8 (groyp root)y (NEW) 
Built-in initramfs compression mode (None) 
[ ]] optimize for size 





图 43 指定 initramfs 的 源 文件 所 在 目录 


但 是 ， 即 使 我 们 没有 指定 将 initramfs 包 含 进 内 核 映 像 中 ， 内 核 也 会 
构建 一 个 内 置 的 ipitramfs。 这 也 是 我 们 看 到 populate_rootfs 代 码 中 ， 第 一 
个 unpack_to_rootfs 是 无 条 件 执行 的 原因 。 


接 下 来 ， 我 们 束 具 体 看 看 这 个 内 置 的 initramfs 的 创建 过 程 。 


首先 ， 内 核 的 链接 脚本 告诉 链接 器 将 段 ".initramfs" 中 包含 的 内 容 链 
接 到 内 核 映 像 的 "Init code and data" 部 分 ， 链 接 脚 本 如 下 上 所 示 : 


linux-3.7.4/arch/x86/kernel/vmlinux.l]lds.s 


SECTIONS 


| 


/* InNit code and data - will be freed after init */ 
. = ALIGN (PAGE SIZE); 
.init.begin : AT(ADDR(.init.begin) - LOAD OFFSET) { 
init begin = .; /* paired with init eng */ 
INIT DATA SECTION (16) 
/:* freed after init ends here */ 


init .end : AT(ADDR(.init.end) -~ LOAD OQFFSET) | 
人 


在 ".init.begin" 和 ".init.end" 之 间 的 部 分 是 内 核 初始 化 时 使 用 的 代码 ， 
在 内 核 初始 化 完成 后 ， 将 再 无 用 处 ， 因 此 ， 内 核 初始 化 完成 后 ， 这 部 分 
的 代码 将 被 释放 。 内 核 内 置 的 initramfs 就 被 包含 在 这 里 。 我 们 先 来 看 一 
下 宏 INIT_DATA_SECTION 以 及 INIT_RAM_FS 的 定义 : 


linux-3.7.4/include/asm-generic/vmlinux.lds.h 


#define INIT DATA SECTION (initsetup align) % 
.init.data : AT(ADDR(.init.data) - LOAD OFFSET) { \ 
INIT DATA % 
INIT SETUP (initsetup align) \ 


INIT CALDLS \ 


CON INITCALL \ 


SECURITY INITCALL % 
INIT RAM FS 
} 
#define INIT RAM FS \ 
. = ALIGN(4); \ 
VMLINUX SYMBOL ( initramfs start) = ,.; 和 
w {init. Famts) 人 
. = ALIGN (8); % 


wi Lnt ,Famts. nF} 


由 上 可 见 ， 段 ".initramfs" 被 链接 到 了 内 核 映 像 的 "Init code and 
data" 部 分 ; 函数 unpack_to_rootfs 中 使 用 的 从 写 _ initramfs_start 指 问 


段 ".initramfs" 的 开头 。 


段 ".initramfs" 的 具体 内 容 在 文件 initramfs data.S 中 ， 人 代码 如 下 : 


linux-3.7.4/usr/initramfs data.s 


.Section .init.ramfs,"ar' 

0 

.incbin stringify (INITRAMFS IMAGE | 
.ITE end: 

,Section .1init.,ramfs.,1info,"a" 

.globl VMLINUX SYMPOL!( initramfts slize) 
VMLINUX SYMBOL!{ initramfs si2e): 


通过 伪 指 令 ".section.init.ramfs"， 链 接 器 将 initramfs 链 接 进 


段 "initramfs"。 其 中 的 INITRAMEFS_IMAGE 在 Makefile 中 定义 ; 


linux-3.7.4/usr/Makefile 
AFLAGS initramfs data.o += \ 
-DINITRAMFS IMAGE="usr/initramfs data.cpios$ (suffix y)， 
initramfs 可 以 及 用 不 同 压 乡 方 式 ，suffix_y 是 对 应 的 后 级 。 比 如 ， 如 
果 使 用 的 是 gzip 压 缩 方 式 ， 则 后 缀 为 ".gz"; 如 果 使 用 的 是 bzip2 压 缩 方 
式 ， 则 后 缀 是 ".bz2"; 等 等 。 当 然 也 可 以 不 必 压 缩 ， 因 为 内 核 最 终 会 家 
压 绾 。 


显然 ，initramfs_data.S 就 是 initramfs 的 内 容 (initramfs_data.cpio) 的 
封装 。 男 外 在 这 个 文件 中 定义 了 代表 initramfs 大 小 的 符号 
_ initramfs_size， 这 个 符号 也 是 函数 populate_rootfs 解 压 内 置 的 initramfs 


时 需要 的 。 


接 下 来 ， 我 们 就 来 看 看 有 具体 的 initramfs 的 内 容 initramfs_data.cpio， 
其 创建 规则 的 脚本 如 下 所 示 : 


linux-3.7.4/usr/Makefile 


(oD) irnitramts data. chpios (eutfir yy Swby /gen init pid 
s (deps initramfs) klibcdirs 


(call if changed,initfs) 


天 注 创 建 initramfs_data.cpio 规 则 的 命令 ， 其 中 if_changed 这 个 表达 式 
在 讨论 内 核 的 构建 时 我 们 已 见 过 多 次 ， 其 核心 就 是 执行 命令 cmd_$1， 


这 里 对 应 的 就 是 cmd_initfs， 访 命令 定义 如 下 : 


linux-3.7.4/usr/Makefile 


cmd initfs = $(initramfs) -o $@ $5 (ramfs-args) ss (ramfs-input) 


其 中 涉及 的 三 个 参数 的 定义 如 下 : 


linux-3.7.4/usr/Makefile 


initramfs = $CONFIG SHELL) \ 
3 (srctree) /scripts/gen initramfs list.sh 
ramfs=input := \ 
(1f s(tfilter-out "™",s(CONFIG INITRAMFS SOURCE))., 所 
5 (shell echo 5s (CONFIG INITRAMFS SOURCE) 1 ，- 马 | 
ramfs-args := \\ 


$ (if $ (CONFIG INITRAMFS ROOT UID), -u \ 
$ (CONFIG INITRAMFS ROOT UID)) \ 
S (if (CONFIG INITRAMES ROOT GID); -9g \ 
$ (CONFIG INITRAMFS ROOT GID)) 


pA 中 。 
initramfs 是 scripts 目 孙 下 的 脚本 gen_initramfs_list.sh 。 


仿 ramfs-input 指 定 了 创建 initramfs 的 输入 。 如 果 配 置 内 核 时 指定 了 
构成 initramfs 的 源 所 在 的 目录 ， 则 使 用 这 个 源 目 录 下 的 文件 创建 
initramfs; 人 否则， 只 传递 一 个 参数 "-d" 给 脚本 gen_initramfs_listsh， 访 脚 


本 则 用 内 核 默认 的 内 容 创建 initramfs。 


令 ramfs-args 这 个 参数 只 有 在 用 户 目 己 指定 了 构建 initramfs 的 文件 时 
才 有 效 ， 默 认 是 "-u0-g 0"， 是 告诉 内 核 将 这 些 文件 的 用 户 ID 和 组 ID 都 议 
置 为 root。 


综 上 上 所 述 ， 当 指定 了 initramfs 的 源 目 录 时 ， 假 设 源 目录 
为 /vita/initramfs， 那 么 构建 initramfs 的 命令 展开 后 大 人 致 如 下 : 
scripts/gen initramfs list.sh -o usr/initramfs data.cpio \ 
-U0 -90 /vita/initramfs 
脚本 gen_initramfs_list.sh 将 /vita/initramfs 目 录 下 的 文件 的 UID 和 GID 
全 部 设置 为 0， 即 root 用 户 和 组 的 ID， 然 后 将 目录 下 的 内 容 打包 为 


initramfs_data.cpio 。 


当 不 指定 initramfs 的 源 目 录 时 ， 创 建 内 置 的 initramfs 的 命令 展开 后 
大 致 如 下 : 


scripts/gen initramfs list.sh -0o usr/initramfs Qata.cpio =d 


通过 命令 行 参数 "-d"， 即 "default initramfs"， 告 诉 脚本 


gen_initramfs_list.sh 创 建 一 个 默认 的 initramfs， 其 包含 的 内 容 如 下 : 


linux-3.7.4/scripts/gen initramfs list.sh 


default initramfs() { 
cat <<-EOF >> ${output)} 
# This is a very simple, default initramfs 


dir /dev 0755 0 0 
nod /dev/console 0600 0 0 cS51 
dir /root 0700 0 0 
# file /kinit usr/kinit/kinit 0755 0 0 
# slink /init kinit 0755 0 0 
EQF 


这 个 默认 的 initramfs 非 党 简单 ， 仪 包括 一 个 /dev 目 录 ， 一 


个 /dev/console 设 备 节 点 以 及 一 个 /root 目 录 。 


最 后 还 要 指出 的 一 点 是 ， 事 实 上 ， 即 使 配置 内 核 不 支持 initramfs， 
内 核 在 内 部 依然 会 构建 一 个 最 小 的 iniramfs。 根 据 init 目 录 下 的 
Makefile， 当 配置 内 核 不 支持 initramfs 时 ， 内 核 链接 init 下 的 
noinitramfs.c， 如 下 脚本 所 示 : 


linux-3.7.4/init/Makefile 
i1fneq (S$ (CONFIG BLK DEV INIIRD) ,Yy) 


obj-Yy 十 = nolnitramfs.o 
else 


文件 noinitramfs.c 的 代码 如 下 : 


Statie 0 Deal rootfs (vord) 
Tit Bes 
err = SYS mkdir((const char user force wy "/devyv", 0755); 
下 上 《ER 
dot Gey 
err = SYS mknod((const char user force *) "/dev/console", 
3. TIECHR | 3 江 ROSR | SS IWUSR: 
new encode dev (MKDEV(5, 1))); 
(SE 过 太 
SJoLn wa 
err ww gyas mkairt(toonst har vser foree *) roob™,. CTQ0}'s 
LE te 这 0 
SG outs 
return 0; 
os 


printk (KERN WARNING "Failed to create a rootfs\n'"),; 
return err; 


} 


rootrts: initcall tdefault rootLfes)', 


由 代码 "rootfs_initcall(default_rootfs)" 可 见 ， 在 没有 配置 内 核 支 持 
initrramfs 的 情况 下 ， 内 核 初 始 化 时 ， 依 然 会 执行 default_rootfs。 而 该 池 
数 将 在 rootfs 中 创建 /dev、/root 目 录 以 及 /dev/console 闻 点 。 


可 见 ， 无 论 在 什么 情况 下 ， 内 核 部 将 确保 有 一 个 iniramfs。 那 么 内 
核 为 什么 要 这 么 做 呢 ? 因为 第 一 个 进程 如 果 打 不 开 控 制 台 设备 
(Cdewconsole) ， 那 么 其 将 异常 终止 ， 最 终 导致 内 核 panic。 所 以 ， 这 
个 默认 的 initramfs 确 保 了 内 核 不 会 因为 第 一 个 进程 打 不 开 控 制 台 设备 而 
panic。 从 茶 种 意义 上 ， 也 可 以 将 其 看 作 内 核 虚 拟 文 件 系统 的 一 个 
Bootstrap， 也 就 是 说 ， 如 采 没 人 给 内 核 提 供 一 个 最 小 的 文件 系统 的 内 


容 ， 那 么 内 核 驶 目 己 创建 一 个 。 


4.2.3 ” 挂 载 并 切换 到 真正 的 根 目录 


将 initramfs 成 功 解压 后 ， 挂 载 真正 的 根 文件 系统 所 需 的 驱动 、 程 序 
等 已 经 全 部 俱 备 ， 可 以 挂 载 真正 的 根 文件 系统 了 。 假 设 真正 的 根 文 件 系 
统 在 第 一 块 硬盘 的 第 一 个 分 区 ， 即 /devsda1， 并 假设 挂 载 点 为 root， 那 
么 挂 载 完 成 后 ， 文 件 系统 的 目录 树 如 图 4-4 所 示 。 


mount] mount2 


a A ee el mnt_parent 
:vfsmount | ee ,| | 
| 1 mnt root 下 


mnt_ mountpoint 





path 
1 vfsmount 


/ "3 mnt root | 
mi | 


的 dentry() 


d name: root 


dentry(root) 





rootfs /dev/sdal 





fs struct task struct 


图 4-4 挂 载 根 文件 系统 后 虚拟 文件 系统 结构 


挂 载 真正 的 根 文 件 系统 ， 即 /dev/sdal 时 ， 内 核 将 为 其 创建 一 个 


mount 对 象 ， 为 了 行文 方便 ， 这 里 用 mount2 指 代 。 为 了 方便 查找 ， 
mount2 会 被 内 核 加 入 到 一 个 Hash 表 中 。mount2 中 的 mnt_parent 指 向 了 代 
表 rootfs 的 mount1。mount2 中 的 mnt_mountpoint 指 向 该 文件 系统 的 挂 载 
点 ， 显 然 ， 这 里 是 rootfs 中 的 root 目录。mount2 中 的 mnt_root 指 向 代表 根 
文件 系统 的 根 廊 后 的 dentry。 


此 时 ， 进 程 0 的 任务 结构 体 中 的 fs 的 root 和 pwd 均 指 同 rootfs 的 根 节 
点 ， 当 然 ， 这 个 根 节 点 是 由 mount 和 rootfs 的 根 目录 的 dentry 的 共同 标识 
的 。 也 就 是 说 ， 此 时 进程 的 文件 系统 的 namespace 是 以 rootfs 的 根 目 录 作 
为 根 的 目录 树 。 


挂 载 真正 的 根 文件 系统 后 ，rootfs 中 的 内 容 已 经 没有 保留 的 意义 ， 
但 是 并 不 能 将 rootfs 皂 载 ， 因 为 rootfs 是 整个 虚拟 文件 系统 的 根 。 因 此 ， 
为 了 不 占用 内 存 空间 ， 将 rootfs 中 的 内 容 ( 文 件 ) 释 帮 挥 好 可 ， 然 后 将 
真正 的 根 文件 系统 移动 到 虚拟 文件 系统 的 根 《“ 即 rootfs 的 根 ) 下 ， 最 后 
再 将 进程 的 文件 系统 的 namespace 切 换 到 真正 的 根 文 件 系统 。 切 换 后 ， 
虚拟 文件 系统 中 的 相关 数据 结构 间 的 关系 如 图 4-5 所 示 。 


一 一 一 一 一 -™ 











mount1 | : mount2 
mnt root | : 
| | i 3 vfsmount | 
Jo 
| 可 | : | path 
dentry(/) | > 
d_parent | Ns 
| dname:/ | gentry) 
| tt 
| rootfs dentry(root) : /dev/sdal 
task struct fs struct 


图 4-5 切换 根 目 录 后 虚拟 文件 系统 结构 


4.3 配置 内 核 文 持 initramfs 


要 使 用 initramfs， 首 先 希 要 配置 内 核 文 持 initramfs， 配 置 步骤 如 
下 : 


1) 执行 make menuconfig， 出 现 如 图 4-6 所 示 的 界面 。 


目 国 GceneraL ssetup 有 下 


[*] Enable loadable moduLe support ---> 
-*- Enable the block Layer ---> 


Processor type and features -=--> 
Power management and ACPI options 
BUS Options (PCI etc., 





图 4-6 配置 内 核 支 持 initramfs (1) 


2) 在 图 4-6 中 选中 "General setup"， 出 现 如 图 4-7 所 示 的 界面 。 


| Automatic process group scheduling 
Enable ns a features to sypport old userspace tools 
| Kernel-= 


Initial RAM eh and a disk (initramfs initrd) suUpp 
Initramfs source file(ls) 
Optimize for size 





图 4-7 配置 内 核 支 持 initramfs (2) 


3) 在 图 4-7 中 选中 "Initial RAM filesystem and RAM 


disk(initramfs/initrd)support" 后 ， 在 该 选择 项 的 下 方 将 出 现 一 个 子 

项 "Initramfs source file(s)"。 可 以 在 这 里 指定 initramfs 所 在 的 目录 ， 内 核 
编译 时 ， 将 会 把 initramfs 所 在 的 目录 压 红 并 链接 到 内 核 的 一 个 特殊 的 数 
据 段 .init.ramfs 中 。 


当然 ， 我 们 也 可 以 不 将 initramfs 链 接 到 内 核 中 ， 而 是 将 其 作为 一 个 
单独 的 文件 ， 由 Bootloader 将 其 加 载 到 内 存 ， 而 这 也 是 通 间 的 做 法 。 这 
时 ， 不 必 设 置 选 项 "Initramfs source file(s)"。 


编译 文 持 initramfs 的 内 核 ， 并 将 其 保存 到 /vita/sysroot/boot 目 录 下 。 


4.4 构建 基本 的 initramfs 


在 这 一 节 ， 我 们 先 建 立 一 个 initramfs 的 原型 ， 用 来 验证 内 核 配 置 以 
及 这 个 initramfs 原 型 。 我 们 在 /vita 目 录 下 创建 一 个 initramfs 目 录 ， 
initramfs 的 内 容 保 存在 这 个 目录 中 。 


vita@baisheng:/vitas mkdir initramfes 


如 果 没 有 在 传递 给 内 核 的 命令 行 参数 中 指定 "rdinit"， 内 核 局 动 后 ， 
执行 的 initramfs 中 第 一 个 程序 是 根 目 孙 下 的 init。 那 我 们 束 从 创建 init 程 
序 开 始 ， 来 创建 我 们 的 initramtfs 。 


基本 上 所 有 的 init 程 序 都 是 采用 shell 脚 本 编写 的 ， 我 们 这 里 也 不 例 
外 ， 当 然 你 也 可 以 采用 其 他 语言 (比如 C) 来 编写 。 这 里 要 注意 的 一 点 
是， 编写 init 脚 本 时 ， 用 来 指明 脚本 使 用 的 解释 磺 的 字符 
串 "#!Ubin/bash" 一 定 要 从 第 一 行 的 左 侧 第 一 个 字符 开始 ， 因 为 内 核 中 的 
脚本 加 载 夯 将 根据 脚本 文件 的 前 两 个 字符 判断 使 用 什么 解释 茵 。 且 体 如 
下 : 


:vlita/initramfs/init: 


#!/bin/,bash 
echo "Hello Linux!" 
exec /bin/,bash 


编写 完 这 个 脚本 后 ， 我 们 需要 为 其 增加 可 执行 属性 ， 有 其 体 如 下 : 


vita@balsheng: /vita/initramfss chmod a+x init 


这 个 脚本 首先 使 用 echo 输 出 "Hello Linux!"，echo 是 shell 内 置 的 合 
令 ， 不 需要 再 额外 安 半 其 他 程序 。 然 后 运行 一 个 交互 式 shell， 与 用 户 进 
a 


shell 提 供 两 种 运行 模式 : 一 种 是 非 交 互 模式 ， 男 外 一 种 是 交互 模 
式 。 在 运行 解释 init 脚 本 文件 时 ， 最 后 会 转化 为 形 如 "/bin/bash/init"， 妇 
将 脚本 文件 init 作 为 参数 传 给 bash 程 序 ， 这 和 古典 型 的 非 区 互 方式 ， 即 bash 
的 输入 不 是 通过 用 户 输 入 ， 而 是 你 存在 一 个 shell 脚 本 文件 中 。 


但 是 ， 我 们 需要 退 过 shell 与 内 核 进 行 交 互 ， 因 此 ， 最 后 通过 命令 局 
动 了 一 个 新 的 shell， 这 个 bash 程 序 没有 任何 输入 ， 目 然 束 以 交互 模式 运 
行 ， 因 为 其 需要 从 用 户 获 得 输入 。 这 里 使 用 exec 的 目的 是 后 面 的 shell 进 
程 直接 代 蕉 前 面 的 shell 进 程 ， 而 不 是 复制 出 男 外 一 个 进程 ， 也 就 是 确保 
这 个 进程 依然 是 pid 为 1 的 进程 。 


init 是 需要 shell 解 释 喜 来 解释 运行 的 ， 因 此 ， 除 了 init 脚 本 文件 外 ， 


不 » 


initramfs 中 还 需要 bash 程 序 。 安 装 bash 程 序 的 命令 如 下 : 


vita@baisheng:/vita/initramfss$s mkdir bin 
vita@baisheng:/vita/initramfss$ cp ../sysroot/bin/bash bin/ 


我 们 需要 检查 bash 依 赖 的 动态 库 ， 命 令 如 下 : 


vita@baisheng:/vita/initramfss ldd bin/bash 
libdl .so0.2 => /vita/sysroot/lib/libdl .so;2 
libgcc s.80.1 =>/Vvita/cross-tool/i1686-none=linux-gnu/ 
libilibges :S830sl 
libcec,B80.6 => /vita/svyeroot/lib/libc.80.6 


bash 依 赖 于 libc、libdl 以 及 libgcc_s.so.1， 因 此 ， 我 们 需要 在 initramfs 
中 安装 这 三 个 库 ， 以 及 安 疙 加 载 动态 库 的 动态 加 载 /链接 右 。 安 北 命 令 
如 下 : 


vita@baisheng:/vita/initramfs$ mkdir lib 
vita@baisheng:/vita/initramfs$ cp -d /vita/sysroot/lib/libdl* \ 
DE 
vita@baisheng:/vita/initramfss$ cp \ 
-vitarBvearoot/ Lib/ LlibDemZ Lo BG TIDY 
vita@baisheng:/vita/initramfss$ cp -d \ 
/vita/rsvearoot/ ribD/LibeBo6 Tby 
vita@baisheng:/vita/initramfs$ cp \ 
/vita/cross-tool/i686-none-linux-gnu/lib/libgcc s.so.1 lib/ 
vita@baisheng:/vita/initramfs$ cp -d /vita/sysroot/lib/ld-* lib/ 


pA 


我 们 还 需要 检查 它们 的 依赖 。 


vita@baisheng: /vita/initramfs$s ldd lib/libdl.so.2 
libc,s8o0.6 => /vita/sysroot /lib/libc.80.6 
ld-l1inux.s80.2 => /Vita/syvsroot/lib/,ld=-1inux,so.,2 


vita@baisheng:/vita/initramfs$ ldd lib/libc.so.6 
ld-linux.s80.2 => /Vita/sysroot/lib/ld-linux,so,2 


vita@baisheng:/vita/initramfs$ ldd lib/ld-linux.so.2 


vita@baisheng:/vita/initramfs$ ldd lib/libgcc s.s0o.1 
libc,.so.6 =» /vita/svesroot/lib/libc.so0.6 


根据 依赖 关系 可 见 ，libdl 依 赖 libc 和 动态 链接 器 ，libgcc 只 依赖 
libc，libc 仪 依赖 动态 链接 右 ， 而 动态 链接 右 不 依赖 其 他 任何 库 ， 因 此 ， 
我 们 不 再 需要 安装 其 他 库 到 initramfs 中 。 


人 至此， 基本 的 initramfs 已 经 准备 完成 ， 打 包 前 ， 我 们 可 以 使 用 find 


命令 最 后 再 检查 一 允 initramfs 中 的 内 容 : 


vita@baisheng:/vita/initramfss find 


./11ib 
Lib/ ide sd, 
/lib/libc-2.,15,806 
/lib/l1d-=-1inux,so.,2 
./l1ib/l1ibdl .SOD ,2 
./l1ib/l1ibdl-2.15.80 
.Al1ib/ld=2,15.80 
/1ib/libgcec ss.8o0:1 
“1 

. /bin 

. /bin/bash 


最 后 我 们 将 initramfs 打 包 并 压 织 ， 保 存在 /vita/sysroot/boot 目 杂 下 。 
根据 内 核 要 求 ， 需 要 使 用 cpio 压 缠 ， 并 且 压 乡 的 格式 为 "mnewc"， 其 体 命 
el 


vita@baisheng:/vita/initramfss$ find . | cpio -o -H newc \ 
| gzip -9 > /vita/sysroot/boot/initrd.img 


我 们 将 bzImage 和 initrd.img 复 制 到 虚拟 机 .: 


vita@baisheng:/vita/sysroot/boots scp bzImage initrd.img 
root@192.168.,.56.,.101: /vita/boot)/ 


然后 更 改 虚 拟 机 的 GRUB 的 配置 文件 grub.cfg， 和 告知 GRUB 加 载 


injitrd 。 


menuentry 'vita' { 
set root=' (hd0 ,2)' 
linux /boot/bzImage root=/dev/sda2 ro 
initrd /boost/initrd,1img 


重 司 系统 ， 进 入 vita 系 统 ， 运 行 结 示 如 图 4-8 所 示 。 


11.10 [正在 运行 ] - Oracle VM VirtualBox 


Using IFI shortcut mode 
input: AT Translated set 2 keyboard as devices/platformiDOd2A/seriodinput inpu 


.00; ATAPI: YBO% CD-—-ROM, i1.0, max UpMAA133 
.B00: conf igured for UpMA.33 
: SNTA link up 3.0 Gbhbps (satatus lz3 SsControl 300) 
.O90: FIA-6: YBO% HARDDPISK, i.0, max UpMA133 
OO: 16777?2ei1i6 sectors, multi i28: LBEAA48 NEN tdepth 31r32) 
Con a 
De | = ee [= ATA UBO% HARDDISk 1.@ PQ: @ ANSI: 5 
站: 站: 了 -RON UBOX CD—-ROM 1.Q PO: OQ ANSI: 5 
; [sdal i16777216 oia-byte logical blocks: (8.58 GB./8.0O G18) 
[sda] Write Protect is off 
[sda] Write cache: enabled, read cache: enabled, doesn t support DPO 


sda: sdalil sdac 
sd ODDO;: [sdal] Attached SCST disk 


: Cannot set terminal process group (-1): Inappropriate ioctl] for device 
: no job control in this shell 
一 和 .2 tsc: Ref ined TC clocksource calibration: 2380.841 MHz 

swWitching to clocksource tsc 





hah ,tt# _ ] 
日 久 下 国 于 | 台 图 右 ctrl | 








图 4-8 运行 到 initramfs 中 的 bash 


由 图 4-8 可 见 ，initramfs 中 的 init 输 出 了 "Hello Linux!" 后 ， 启 动 了 一 
站 交互 式 有 的 shell。 


4.5 将 使 熏 张 动 编译 为 醒 鞭 


initramfs 的 重要 作用 之 一 加 是 允许 内 核 将 保存 根 文 件 系统 的 存储 设 
备 的 驱动 不 再 编译 进 内 核 。 上 一 节 ， 我 们 体验 了 基本 的 initramfs， 这 一 
节 ， 我 们 束 将 便 盘 驱动 编译 为 模块 。 


4.5.1 配 症 devtmpfs 


既然 提 到 设备 ， 而 且 Linux 将 设备 也 抽象 为 文件 ， 这 里 就 不 得 不 讨 
论 一 下 设备 文件 或 者 说 设备 节点 。 通 常情 况 下 ， 某 些 需 要 从 用 户 空 间 访 
问 的 设备 都 会 在 文件 系统 中 建立 一 个 设备 文件 ， 作 为 用 户 空间 访问 设备 
的 接口 。 得 益 于 Linux 中 虚拟 文件 系统 的 设计 ， 用 户 空间 的 程序 可 以 像 
访问 普通 文件 一 样 ， 使 用 标准 的 文件 访问 接口 实现 与 设备 的 交互。 


根据 FHS 的 规定 ， 设 备 文 件 存 放 在 /dev 目 录 下 。 在 Linux 系 统 的 早 
期 ， 设 备 文件 是 静态 创建 的 ， 所 有 的 设备 节点 是 于 动 、 事 匈 创 建 的 。 笔 
者 还 记得 在 早期 制作 Linux 友 行 版 时 ， 安 六 系统 时 ， 需 要 静态 安 容 大 量 
的 设备 文件 ， 把 所 有 可 能 的 设备 市 太一 并 创建 出 来 。 但 是 ， 这 样 市 来 的 
一 个 问题 丈 是 ， 随 看 设备 的 种 类 越 来 越 多 ， 这 个 目录 会 越 来 越 大 ， 对 于 
东 一 台 具 体 的 机 如 来 说 ，dev 目 录 下 充斥 着 大量 无 用 的 设备 文件 ， 因 为 
东 些 设备 在 条 些 机 大 上 根本 束 不 存在 。 而 且 ， 这 种 方法 会 逐渐 耗 尽 设备 


号 ， 虽 然 可 以 通过 扩展 设备 号 的 位 数 来 增加 设备 号 ， 但 终究 不 是 长 久之 
a 


鉴于 静态 创建 设备 文件 的 种 种 问题 ， 开 有 友人 员 开 及 了 devfs。devfs 
里 然 解决 了 控 需 创建 设备 市 把 的 机 制 ， 但 是 还 是 有 很 多 问题 ， 比 如 设备 
文件 的 名 称 依然 由 驱动 开 友 人 员 在 代码 中 指定 ， 而 不 能 由 系统 官 理 员 指 
定 。 因 此 ， 后 来 义 出 现 了 udev， 使 得 设备 命名 东 略 、 权 限 控制 等 都 在 用 
户 衬 间 完 成 。 如 此 ， 设 备 文件 不 再 是 静态 创建 ， 而 是 由 udev 根 据 内 核 检 
测 到 的 实际 连接 的 设备 ， 创 建 相 应 的 设备 文件 。 


对 于 动态 创建 设备 文件 ， 推 荐 在 /dev 目 录 下 挂 载 一 个 基于 内 存 的 文 
件 系统 。 基 于 内 存 的 文件 系统 会 完全 驻 留 在 RAM 中 ， 读 与 可 以 瞬间 完 
成 。 除 了 性 能 优势 之 外 ， 基 于 内 存 的 文件 系统 的 万 外 一 个 特点 融 是 没有 
持久 性 ， 基 于 内 存 的 文件 系统 中 的 数据 在 系统 重新 局 动 之 后 个 会 保留 。 
这 看 起 来 可 能 不 像 是 个 积极 因 系 ， 然 而 ， 对 于 动态 创建 设备 证 扩 这 种 情 
况 来 说 ， 这 实际 上 是 一 个 优势 。 在 系统 天 财 后 ， 所 有 的 设备 市 点 无 须 你 
留 ， 系 统 重 局 后 ，udev 将 根据 内 核 检测 到 的 实际 设备 创建 设备 文件 。 


Linux 从 2.6.18 开 始末 用 udev，/dev 目 录 使 用 了 基于 内 存 的 文件 系统 
tmpfs 和 党 理 设备 文件 。 


2009 征 初 ， 开 友人 员 叉 提出 了 devtmpfs， 并 在 同年 年 压 被 Linux 
2.6.32 正 式 收 录 。 内 核 引 寻 时 ，devtmpfs 将 所 有 注册 的 设备 在 devtmpfs 中 


建立 相应 的 设备 文件 ， 一 旦 进入 用 户 空 间 ， 在 局 动 udev 前 ， 束 可 以 将 
devtmpfs 挂 载 到 /dev 目 录 下 。 也 融 是 说 ， 在 局 动 udev 前 ，devtmpfs 中 已 经 
建 并 了 初步 的 设备 文件 ， 一 般 局 动 程 订 不 必 骨 等 等 udev 建 并 设备 节操 ， 
其 至 在 菏 些 艇 入 式 系 统 上 ， 不 再 需要 udev 创 建设 备 节 点 ， 因 为 这 个 基本 
的 /dev 已 经 足够 ， 从 而 缩短 了 系统 的 司 动 时 间 。 同 rootfs 茯 似 ，devtmpfs 
也 不 是 新 设计 的 文件 系统 ， 如 采 内 核 配 置 文 持 tmpfs， 那 么 其 残 是 
tmpfs; 否则 ，devtmpfs 就 是 ramfs， 只 不 过 换 了 一 个 名 字 而 已 。 


下 面 我 们 就 实际 体验 一 下 devtmpfs。 为 此 ， 我 们 需要 在 initramfs 中 


安装 工具 ls 和 mount。 


工具 ls 在 coreutils 中 ， 所 以 首先 编译 安装 coreutils: 


vita@baisheng:/vita/builds tar 
xvf .. /source/coreutils-8.20.tar.Xx?z 
vita@baisheng:/vita/build/coreutils-8.20s$ ./configure 
- -prefix=/usr 
vita@baisheng:/vita/build/coreutils-8.20$ make install 


下 面 使 用 1dd 检 和 碍 ls 依赖 的 库 : 


vita@baisheng:/vitas ldd sysroot/usr/bin/ls 
librt 0s = /vitarsverooc /LibDrLiDrt.Sosi 
Lob babDel ws 
/vita/cross-tool/i686-none-linux-gnu/lib/libgcc s.so.1 
lJibe,a0,.6 =» /vita/syesroot /libAl11ibDe .80.8 


vita@balshengs/vitas ldd svearoot/lib/librt :80:1 
LIDe.So.S BR /mata veo LID /Lb a 
libpthread.so.0 => /vita/sysroot/lib/libpthread.so.0 
二 站 = 于 二 二 机 有 电光 ES ytta/ syaroot LLB Ld IN. S62 


vita@baisheng:/vitas ldd sysroot/lib/libpthread.so.0 
libc806 => /vita/sysroot/lib/l1ibc.s80.6 
LOLinnr. SG.2, Ss /ritarBverooc /Llib rld iE D2 


根据 ldd 的 输出 可 见 ，ls 依 顿 的 库 除 了 librt 和 libpthread 疝 未 安 儿 到 
initramfs 中 外 ， 其 余 已 经 安 疤 ， 所 以 我 们 将 ls 以 及 librt 利 libpthread 复 制 到 


initramfs 中 : 


vita@baisheng:/vitas cp sysroot/usr/bin/ls initramfs/bin/ 
vita@baisheng:/vitas$s cp -d sysroot/lib/librt* initramfs/l1ib/ 
vita@baisheng:/vitas cp -d sysroot/lib/libpthread* initramfs/l1ib/ 


工具 mount 在 软件 包 util-linux 中 ， 我 们 首先 来 编 详 这 个 软件 包 : 


vita@baisheng:/vita/builds tar xvf \ 
.. /source/util-l]linux-2.22.tar.xz 
vita@baisheng:/vita/build/util-linux-2.22$ ./configure \ 
--prefix=/usr --disable-use-tty-group --disable-login \ 
--disable-sulogin --disable-su --without-ncurses 
vita@baisheng:/vita/build/util-linux-2.22$ make 
vita@baisheng:/vita/build/util-linux-2.22$ make install 
vita@baisheng:/vita/build/util-linux-2.22$ find $SYSROOT \ 
-name "*.]a" -exec rm -f '{}' \; 


下 面 使 用 1dd 检 查 mount 依 赖 的 库 : 


vita@baisheng:/vitas ldd sysroot/bin/mount 
lbmourt ao ns /vita/evearoot lib Li a. 
1DDLKLId SO. = /ita/BVErOGt/LID/LIDBIELd.S61 
libuuid.so.1 => /vita/sysroot/l1ib/libuuid.so.1 
下 


vita@baisheng:/vitas ldd sysroot/lib/libmount.so.1 
lIibDIkiaosl ms vitarsvaeroot/l tp elLibblilo Bo 

=> /vita/sveroot /libD/l1ibuuid.s80.1 

/vita/sysroot/lib/libc.so.6 


A 
libc.s80.6 => 


vita@baisheng:/vitas 
Lo a 
li.De .BouG6 my 


vita@baisheng:/vitas 
li1ibc.80.6 = 


ldd sysroot/lib/libblkid.so.1 
sl VIA veroot LibD/ Libanld .sm.1 
SYSEOOETLLDAL DC SG 


dd BVveroot /iD/ LiDUULG S61 
vita/sraroot/ Lb Lica 


根据 1dd 的 输出 可 见 ，mount 依 赖 libmount、libblkid、libuuid 以 及 
libc。libc 己 经 安装 到 了 initramfs 中 ， 我 们 将 mount 和 其 余 几 个 库 复 制 到 


initramfs: 


vita@baisheng:/vitas 
vita@baisheng:/vitas 
initramfs/lib/ 
vita@baisheng:/vitas 
initramfs/lib/ 
vita@baisheng:/vitas 
initramfs/l]1ib/ 


cp 


sySroot/bin/mount initramfs/bin/ 
-QQ sysroot/lib/libmount.so.1* \ 


-dd sysroot/lib/libblkid.so.1* \ 


-dd svsroot/l]ib/libuuid.so.1* 


重新 压缩 initramfs， 并 将 其 体 存 到 /vita/sysrootboot/ 目 录 下 。 接 下 
来 ， 我 们 准备 支持 devtmpfs 的 内 核 ， 配 置 步 又 如 下 : 


1) 执行 make menuconfig， 出 现 如 图 4-9 所 示 的 界面 。 


Executable file formats / Emulations 
Networking support ---» 


Device Drivers 
Firmware Drivers 





File svyvstems ---> 


图 49 配置 内 核 支 持 devtmpfs (1) 


2) 在 图 4-9 中 ， 选 择 "Device Drivers"， 出 现 如 图 4-10 所 示 的 界面 。 


Generic Driver Options ---»> 

BUS devices ---> 

Memory Technology Device (MTD) syUPpBort ---> 
Parallel port syupport ---> 





3) 
的 界面 。 


Plug and Play support ---> 
图 4-10 配置 内 核 支持 devtmpfs (2) 


在 图 4-10 中 ， 选 择 "Generic Driver Options"， 出 现 如 图 4-11 所 示 


ath to uevent helper 
Maintain a devtmpofs filesvstem to mount at /dev 


hutomount devtmpfs at /dev, after the kernel n 
Prevent firmware from being built 





- Userspace firmware Loading support 


图 4-11 配置 内 核 支持 devtmpfs (3) 


4) 在 图 4-11 中 ， 选 中 "Maintain a devtmpfs filesystem to mount 


at/dev"。 


编译 内 核 ， 并 将 内 核 与 脐 面 准备 好 的 initramfs 复 制 到 虚拟 机 的 目标 
系统 上 ， 然 后 重 局 进入 vita 系 统 。 使 用 1s 列 出 vita 系 统 /dev 下 的 设备 文 
件 ， 如 图 4-12 所 示 。 


11.10 [正在 运行 ] - Gracle VM VirtualBox 


tz 

ata3 .00: ATAPI: UBO% CCD-ROM, i1.0, max UPHA.133 

ata3 .QO0: conf igured for UpMAA33 

atai: 3ATA link up 3.0 Gbps (S33tatus i123 SControl 300) 

atalil .OoO: TA-6: UBOx% HARDDISKE, 1.0, max UDPMA.133 

ta GOD: 16777216 sectors, multi i128: LBAA48 NCQ tdepth 31z“32 ) 

atal .oo: conf igured for UpMA.133 

scsi QO:0:0: Direct-PAccess 让 工 训 UBDOX% HARDDTISK 1.9 FW: 0 ANSI: 5 
scsil :0:0:0: Ch-ROM UBO% Ch-ROM 1.9 FW: 0 ANSI: 5 
sd OO:O:0:0: [sda] 16777216 Siz2-byte logical blocks: (8.58 GB./8.00 GiB) 

sd O:O:O0:0: [sda] Write Protect is off 

sd QO:O:0:0; [sda] Write cache: enabled, read cache; enabled, doesn’t support DPO 
or FUA 

sda: sdail sdaz 

sd O00:0;: [sda] fttached stol disk 

Freeing Unused kernel memory: 3498k freed 

Hello Linuxt 

lbash: cannot set terminal process group -1): Inappropriate ioctl for dewvice 
hash: mo ,job control in this 全 he1ll 

bash—4.2# tsc: Refined Tat clocksource calibration: £2382 .443 MHz 

Switching to clocksource tsc 

LT Ee | ts i i 
console 
LEE i 
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图 4-12 未 挂 载 任何 文件 系统 的 /dev 目 录 


根据 图 4-12 可 见 ，/dev 目 好 下 包含 一 个 设备 节点 console。 但 是 我 们 
的 initramfs 中 并 没有 包含 这 个 设备 节点 ， 那 么 这 个 设备 节点 古 谁 创建 的 


呢 ? 大 家 一 定 还 记得 我 们 前 面 讨论 过 的 内 苇 的 initramfs 吧 ? 没 错 ， 这 个 


console 束 是 由 内 置 的 initramfs 创 建 的 。 
接 下 来 我 们 使 用 下 面 的 命令 将 ramfs 挂 载 到 /dev 目 孙 下 。 
mount -了 -t ramfs none /dev 


因为 ramfs 只 是 一 个 基于 内 存 的 文件 系统 ， 与 设备 无 关 ， 所 以 mount 
命令 中 的 "device" 参 数 可 以 使 用 任意 字 串 摘 述 。 习 惯 上 ， 对 于 这 类 没有 
具体 设备 的 ， 一 般 使 用 字 串 "none" 表 示 。 但 是 mount 命 令 不 推荐 这 样 使 
用 ， 因 为 在 某 些 情况 下 ， 某 些 提示 很 容易 让 用 户 费 解 ， 比 如 "mount: 
none already mounted"。 这 里 我 们 暂时 使 用 "none"， 在 最 终 系统 中 我 们 使 
用 "udev"， 表 示 该 目录 下 的 节点 是 由 udev 创 建 的 。 默 认 情 况 下 ，mount 
命令 会 在 文件 /etc/mtab 中 维护 一 份 当前 已 挂 载 的 文件 系统 列表 ， 因 为 我 
们 的 initramfs 中 没有 创建 /etcmtab 文 件 ，initramfs 中 也 不 需要 ， 因 此 使 用 


参数 "-n" 告 诉 mount 不 再 维护 这 份 列 表 。 


挂 载 完 成 后 ， 我 们 和 否 看 /dev 下 的 设备 文件 。 情 况 非 营 糟 糙 ，/dev 下 
挂 载 了 一 个 空 的 ramfs 文 件 系 统 ， 原 有 的 console 设 备 节点 也 被 宪 盖 了 ， 
如 图 4-13 所 示 。 
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ata3d .OO: conf igured for UDMhA733 

atail: 3ATA link up 3.0 Gbps tS3tatus i123 stontrol 300) 

atal .QO: fTA-6: YBO% HARDDISK, 1 .0, max UpMAA133 

atal.OoO: lorrrelbe sectors, multi ic2B: LBAA46 NC idepth 了 了 17 汪 z2 

atai.Oo0: conf igured for UpMA.133 

scsi OO0:0:0; Direct-fccess 站 了 UBO% HARDDPISK 1.9 FW: OO ANSI: 5 
scsi :0:0:0: CDp-RONM UBOX Ch RON 1.90 PW: QO ANSI: 5 
sd 自 [sda] i16777216 51z-bhuUte logical blocks: (8.58 Gh-8.00 G1B) 

Ed 0 [sda] Write Frotect is off 


sd 人 [sda] Write cache: enabled, read cache: enabled, doesn’ t support DPO 


‘sda;: sdal sdac 

sd O00:0:0: [Lsdal] httached SSCSl disk 

Freeing Unused kernel memory: 348k freed 

Hello Linuxt 

bash: cannot set terminal process group -1): Inappropriate ioctl for dewvice 
bash : no .job control in this shell 

bash-—4.2# tsc: Refined Tt clocksource calibration: £365.443 MHz 


Switching to clocksource tsc 


| ls dev 

console 

LEE i Wt mount -nn -tt ramfs none wdew 
bash—44.2# ls zdev 

[ET 
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图 4-13 挂 载 ramfs 文 件 系 统 的 /dev 目 录 
接 下 来 我 们 使 用 下 和 面 的 命令 将 devtmpfs 挂 载 到 /dev 目 录 下 : 


mount -n -t devtmpfs none /dev 


挂 载 完成 后 ， 我 们 绸 次 奏 看 /dev 下 的 设备 文件 。 可 以 看 到 ， 
devtmpfs 下 向 已 经 建立 了 右 干 设备 广 扣 ， 如 图 4-14 所 示 。 
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Freeing unused kernel memory: 348k freed 
Linuxt 
cannot set terminal process group (~1); Inappropriate ioctl for dewvice 
no job control in this shell 
tsc: Refined TS¢C clocksource calibration: 2385 .4493 MHz 
to clocksource tsc 


ls dew 


mount -nn -tt ramfs none Adewv 
ls dew 
mount -mh -上 devtmpfs none xdev 
ls /dew 
random 


ttyi4 ttuy24 


sa 
dal 
ae 
ttyu 

t 五 UU 人 Q 
t 革 U1 
ttuin 
ty 
ti 
ttuli3 


tty15 
ttuyi6 
ttuyli? 
ttyi8 
ttuyli9 
ttu2 

ttyz0 
ttuy21 
tty22 
ttyz3 


ttUz5 
ttuy26 
ttU2? 
ttuyz8 
ttU29 
ttu3 

ttyu39 
ttU31 
ttU32 
ttU33 


urandom 

CC 所 

wl 

WCSd 

ycCSEal 
va_arbiter 
ZEro 





半 加 上 消 外 和 自 间 
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图 4-14 挂 载 devtmpfs 后 的 /dev 目 录 


既然 devtmpfs 有 这 么 多 的 好 处 ，/dev 目 录 当 然 要 使 用 devtmpfs 文 件 系 
统 了 。 因 此 ， 按 照 下 面 的 脚本 修改 initramfs 中 的 init 文 件 : 


/vita/initramfs/init 


#!/bin/bash 


Echo "Hello Linux!" 


mount -了 -t devtmpfs udev /dev 
exec /bin/,bash 


4.5.2 ”将 便 盘 控制 故 张 动 配置 为 模块 


与 前 面 配置 硬盘 控制 器 驱动 类 似 ， 只 不 过 这 里 我 们 将 "AHCI SATA 
support" 和 "Intel ESB,ICH,PIIX3,PIIX4 PATA/SATA support" 配 置 为 模 
块 ， 如 图 4-15 所 示 。 


AHCI SATA support 

platform AHCI SATA syupport 

Initio 162x SATA sypport 

MCard AHCI wariant (ATP 86286) 

silicon Image 3124/3132 SATA support 

ATA SFF support (for legacy IDE and PATA) 


tt SFF controllers with custom DMA interface ** 
pacitfic Digital ADMA support 
Pacific Digital SATA QStor support 
ATA BMDMA support 
让 志 志 SATA SFF controllers with BMDMA 六 十 冯 
Intel ESB, ICH, PILIX3, PIIX4 PATA/SATA suyupport 





图 4-15 配置 SATA 控 制 器 驱动 为 模块 


接 下 来 重新 编译 内 核 和 模块 。 内 核 和 模块 可 以 使 用 单独 的 命令 分 开 
编译 ， 也 可 以 使 用 一 条 make 命 令 同 时 编译 内 核 和 模块 。 编 译 完成 后 ， 将 
模块 暂时 和 安装 在 "/vita/sysroot/lib/modules" 目 录 下 。 

vita@baisheng:/vita/build/linux-3.7.4$ make bzImadge 
vita@balsheng:/vita/build/linux-3.7.4$ make modules 


vita@baisheng:/vita/build/linux-3.7.4$ make \ 
INSTALL MOD PATH= SSYSROOT module s lines tall 


最 终 安 竣 的 价 盘 控制 闫 驱动 模块 包括 : 


vita@baisheng:/vitas ls \ 
sysroot/lib/modules/3.7.4/kernel/drivers/atal/ 
ahci .ko ata piix,ko libahci.ko 


我 们 将 其 复制 到 initramfs 中 。 


vita@baisheng:/vitas mkdir -pn 
linitramfs/lib/modules/3.7.4/kernel /drivers/ata 

vita@baisheng:/vitas cp 
sysroot/lib/modules/3.7.4/kernel/drivers/ata/* 
jnitramfs/lib/modules/3.7.4/kernel/drivers/ata/ 


为 了 加 载 内 核 模块 ， 我 们 十 要 安装 加 载 、 凶 载 等 省 理 模块 的 工具 ， 
这 些 工 具 在 包 kmod 中 : 


vita@bailsheng: /vita/builds tar xvf ../source/kmod-12.tar.xz 
vita@baisheng:/vita/build/kmod-12s ./configure --prefix=/usr 
vita@baisheng:/vita/build/kmod-12$ make 
vita@baisheng:/vita/build/kmod-12$ make install 
vita@baisheng:/vita/build/kmod-128 find S$SYSROOT N 

-name "*.]a" -exec rm -f '{}' \; 


检查 kmod 的 依赖 : 


vita@baisheng:/vitas ldd sysroot/usr/bin/kmod 
libpkmod.so0.2 => /vita/sysroot /usr/l1ib/libkmod.so.2 
libc.so0.6 => /vita/svyvsroot/lib/libc.so.6 


vita@baisheng:/vitas ldd sysroot/usr/lib/libkmod.so.2 
libc.so,.6 => /vita/svesroot/lib/libc.s0.6 


根据 输出 可 见 ，kmod 及 库 libkmod 只 依赖 libc 库 ， 而 libc 已 经 安装 到 
initramfs， 上 所 以 复制 kmod 及 库 ]ibkmod 到 initramfs 即 可 ， 有 具体 如 下 : 


vita@baisheng:/vita/initramfss$s mkdir usr/bin 

vita@baisheng:/vitas cp sysroot/usr/bin/kmod initramfs/usr/bin/ 

vita@baisheng:/vitas cp -d sysroot/usr/lib/libkmod.so.2* \ 

initramfs/l]ib/ 
kmod 古 module-init-tools 的 天 代 者 ， 但 是 kmod 古 问 后 碰 容 module- 

init-tools 的 ， 虽 然 kmod 只 提供 一 个 工具 kmod， 但 是 通过 人 符 气 链接 的 形式 
文 持 module-init-tools 中 的 各 个 命令 ， 而 且 目 前 来 看 ， 也 只 能 使 用 这 种 方 
式 来 使 用 各 种 模块 管理 命令 。 因 此 ， 需 要 为 各 个 模块 管理 命令 建立 符号 


链接 ， 并 将 这 些 符 号 链接 也 复制 到 initramfs 中 : 


vita@baisheng:/vita/sysroot/sbins$s ln -s ../usr/bin/kmod insmod 
vita@baisheng:/vita/sysroot/sbins ln -s ../usr/bin/kmod rmmod 
vita@baisheng:/vita/sysroot/sbins$ ln -s ../usr/bin/kmod modinfo 
vita@baisheng:/vita/sysroot/sbins$ ln -s ../usr/bin/kmod lsmod 
vita@baisheng:/vita/sysroot/sbins$ ln -s ../usr/bin/kmod modprobe 


vita@baisheng:/vita/sysroot/sbins$s ln -s ../usr/bin/kmod depmod 


vita@baisheng:/vitas$s mkdir initramfs/sbin 
vita@baisheng:/vita/sysroot/sbins$ cp -d insmod rmmod \ 
modinfo lsmod modprobe depmod /vita/initramfs/sbin/ 


其 中 ，insmod、rmmod、modprobe 用 于 加 载 / 伙 载 模块 : modinfo 用 
于 查看 模块 信息 ;lsmod 用 于 查看 已经 加 载 的 模块 ，depmod 用 于 创建 模 
块 间 的 依赖 关系 。 注 意 ， 这 里 一 定 要 将 modprobe 等 命令 放 在 /sbin 目 录 
下 ， 因 为 后 面 的 udevd 将 会 到 使 用 "/sbin/modprobe" 的 形式 调用 modprobe 
命令 。 最 新 的 合并 到 systemd 中 的 udev 不 再 直接 调用 modprobe 等 工具 ， 


而 古 使 用 libkmod 提 供 的 库 扣 供 的 API 加 载 模块 ， 但 并 无 本 质 区 列 。 


bash 的 默认 搜索 命令 的 路 径 

为 /usr/gnw/bin:/usr/local/bin:/bin:/usr/bin:.。 我 们 当然 可 以 使 用 全 路 径 运 行 
命令 ， 比 如 /sbin/insmod， 但 是 为 了 方便 ， 我 们 还 是 在 init 脚 本 中 对 搜索 
命令 的 路 径 进行 一 些 调整 。bash 中 ， 保 存 搜索 命令 的 环境 变量 为 
PATHE: 

#!/bin/bash 

echo "Hello Linux!" 

export PATH=/usr/sbin: /usr/bin: /sbin:/bin 


mount -n -t devtmpfs udev /dev 
exec /bin/bash 


压缩 initramfs， 并 将 其 和 不 包含 便 盘 驱动 的 bzImage 复 制 到 虚拟 机 ， 
然后 重 局 系统。 进入 系统 后 ， 因 为 内 核 中 已经 没有 使 盘 控 制 带 的 驳 动 ， 
所 以 在 /dev 目 录 下 不 会 有 类 似 /dev/sdaX 的 设备 节点 。 为 了 识别 硬盘 ， 我 
们 需要 加 载 使 盘 控 制 套 的 驱动 。 


前 面 提 到 ，Intel 的 SATA 控 制 右 可 以 运行 在 Compatibility 模 式 和 
AHCI 模 式 。 笔 者 的 机 各 的 SATA 控 制 占 工作 在 AHCI 模 式 ， 因 此 使 用 ahci 
驱动 。 但 是 在 试图 加 载 ahci 模 块 时 ，ahci 模 块 在 报告 了 若干 找 不 到 的 符 
号 后 ， 加 载 以 失败 告终 ， 如 图 4-16 所 示 。 
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bash: cannot set terminal process group -1): Inappropriate ioctl for dewvice 
bash: no job control in this shell 
bash—4 .ct tsc: Refined Tt clocksource calibration: 2380.838 MHz 


9 to clocksource tsc 


[ee 4 .02t# insmod wlib/modulesrd. 7 .kernelrdrivers ataahci.ko 
ahci: Unknown syumbol ahci _ ops (err OQ) 

ahci Unmnknouwnm symbol ahci start _ engine terr ©) 

ahci: Unknown symbol ahci_interrupt terr 0) 

ahci: Unknowmn symbol ahci _ check_ready terr 0) 

ahci: Unknown syumbol ahci _ kick engine terr 0) 

Bahci: Unknown syumbol ahci set em messages (err 0) 

ahci: Unknouwumn symbol ahci_init_ controller terr ©) 

ahci: Unknowmn syumbol ahci shost_ attrs (err 0) 

ahci: Unknown symbol ahci_reset_controller (err ©) 

ahci: Unknown syumbol ahci_print_info err 0) 

ahci: nknown symbol ahci stop_engine (err 0) 

ahci: Unknown syumbol ahci_ reset _ em (err 0) 

ahci: Unknouwum symbol ahci sdew attrs terr QQ) 

ahci: Unknown symbol ahci _ pmp_retry srst _ ops (err 总 ) 

ahci: Unknown symbol ahci save_initial conf ig (err 0) 

ahci: Unknown symbol ahci_ignore_sss terr OQ) 

insmod : ERROR: could not insert module wlibA/modules/3.7.4Akernel/drivers/ata/ahc 
i.ko: Unknown symbol in module 

lbash-— 二 .< 并 _ 
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图 4-16 加 载 ahci 模 块 失 败 


显然 ， 这 些 找 不 到 的 从 号 应 该 定义 在 其 他 某 个 〈( 些 ) 未 加 载 的 模块 
中 ， 我 们 十 要 使 用 命令 modinfo 合 看 一 下 模块 ahci 依 赖 了 哪些 模块 ， 我 们 
使 用 参数 "-F depends" 告 诉 modinfo 仅 显示 ahci 的 依赖 信息 : 


vita@baisheng:/vitas modinfo -F Qepenas 、 
sysroot/lib/modules/3.7.4/kernel/drivers/ata/ahci .ko 
libahci 


根据 modinfo 的 输出 ， 我 们 可 以 看 到 ，ahci 模 块 依赖 libahci 模 块 。 
此 ， 我 们 首先 需要 加 载 libahci 和 模块 ， 然 后 再 加 载 ahci 模 块 ， 如 图 4-17 上 所 


人 小 。 
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bash: no .job control in this shell 
bash—4.2# tsc: Refined Tat clocksource calibration: 2382 .351 MHz 
switching to clocksource tsc 


TE i Inmsmodg “Libhmoduules3 .7 . 航 “KEPmE1 UPEwEeIS adta libhahci .ko 
hash- 二 ,z# insmod ”Libzmoaulesr-3 .7 ,和 “KErnelcariwers“ataahci ,ko 
| i: S33 flag set, parallel bus scan disabled 
:OO:0d.0: AHCT O001.0100 32 slots 1 ports 3 Ghbps 站 xl impl 3ATA mode 
:O00d.0: flags: G4bit ncoq stag only cce 
: ahci 


: 3TA max UDMA.133 abar m12eOxf 0806000 port Oxf OBO6LOO irg 21 
: oNTA link up 3.0 Gbps (S53tatus le23 Gontrol 300) 


.BO0: PTA-6: UVBO% HARDDISKE, 1 .0, max UDpMA.133 
.90: lbr?rr2e1i6 sectors, multi i28: LEAA4G NCQ tdepth 31A32) 
: Conf igured for UDpMA.,/133 
:O00 Direct-Access 站 TA URBOx HARDDISK 1 . PO: OQ ANSI: 5 
:日 :日 : [sda] i16777216 Siz-byte logical blocks: (8B8.58 GEA/B8.00 GiB) 
:O00: [sdal] Write Protect is off 


:QO:0: [sda] Write cache: enabled, read cache: enabled, doesn’ t support DPO 


i 
:BB: [sda] fittached SCSI disk 
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图 4-17 加 载 ahci 模 块 成 功 


加 载 ahci 模 块 后 ， 该 模块 正确 识别 出 了 便 盘 控制 顷 ， 并 且 内 核 在 
devtmpfs 中 也 建立 了 对 应 硬盘 的 设备 节点 。 


虽然 使 用 insmod 可 以 完成 加 载 模块 的 功能 ， 但 是 我 们 发 现 必须 要 对 
模块 的 依赖 关系 非 音 清楚。 对 运 的 是 ahci 只 依赖 libahci， 而 且 libahci 不 依 
赖 其 他 模块 。 但 是 如 果 一 个 模块 依赖 多 个 模块 ， 并 且 依 赖 的 模块 又 依赖 

其 他 的 模块 ， 如 此 下 去 ， 可 想 而 知 ， 加 载 这 样 一 个 模块 将 是 多 么 复杂 。 
好 在 kmod 中 提供 了 另外 一 个 加 载 /卸载 模块 的 工具 modprobe， 与 insmod 
和 rmmod 相 比 ，modprobe 可 以 自动 加 载 / 纯 载 模块 依赖 的 其 他 模块 ， 而 
模块 间 的 依赖 关系 存储 在 modules 目 录 下 的 modules.dep 中 。 以 人 硬盘 驱动 


这 几 个 模块 为 例 ， 其 在 modules.dep 中 的 内 容 如 下 : 


kernel/drivers/ata/ahci.ko: kernel/drivers/ata/libahci.ko 
kernel/drivers/ata/libahci .ko: 
Kernel/drivers/ata/ata piix.ko: 


该 片段 表示 模块 ahci.ko 依 赖 libahci.ko， 而 模块 libahci.ko 和 和 
ata_piix.ko 不 依赖 其 他 模块 。 


如 果 模 块 间 依 赖 天 系 人 简单 也 去 ， 但 是 如 果 比 较 复 森 ， 那 么 手动 去 创 
建 modules.dep 古 不 现实 的 ， 圣 运 的 是 ， 模 块 官 理工 具 中 也 提供 了 相应 的 
工具 创建 modules.dep 文 件 ， bl 在 安装 内 核 模块 
时 ， 和 安 沪 脚本 将 目 动 调用 这 个 工具 ， 创 建 modules.dep 等 文件 。 


为 了 加 快 搜索 过 程 ，modules.dep 通 癌 使 用 更 有 效率 的 Trie 树 来 组 
织 ， 并 命名 为 modules.dep.bin。module-init-tools 中 实现 的 modprobe 上述 
两 种 格式 都 支持 ， 当 然 首 选 使 用 modules.dep.bin。 但 是 kmod 仪 支持 使 用 
Trie 树 形式 存储 的 modules.dep.bin。 


接 下 来 我 们 就 体验 一 下 使 用 modprobe 加 载 驱 动 模块 。 首 先 需 要 创建 
模 匡 依 顿 天 系 文 件 。 一 般 而 言 ， 对 于 通用 系统 ， 通 利 在 安 痛 系统 时 使 用 
depmod 创 建 依 顿 关系 文件 ， 然 后 如 条 模块 有 变动 ， 可 以 使 用 depmod 命 
Eee 


在 这 里 ， 在 安装 内 核 模 块 时 ， 安 装 脚本 已 经 调用 depmod 创 建 了 


modules.dep 和 使 用 Trie 树 组 织 的 modules.dep.bin， 注 意 需 要 将 使 用 Trie 树 
旧 织 的 modules.dep.bin 复 制 到 initramfs。 当 然 ， 如 果 使 用 了 module-init- 
tools 中 的 模块 管理 工具 ， 那 么 这 里 完全 可 以 体验 一 下 手写 modules.dep 文 

件 。 


vita@baisheng:/vitas cp \ 
sysroot/lib/modules/3.7.4/modules.dep.bin An 
initramfs/l]ib/modules/3.7.4/ 
为 了 验证 modprobe 是 合 正 确 加 载 了 模块 ， 可 以 使 用 命令 lsmod 奏 看 
内 核 加 载 的 模块 。 但 是 lsmod 是 通过 proc 和 sysfs 获 取 内 核 信 息 的 ， 
此 ， 为 了 使 用 lsmod， 首 先 需 要 挂 载 proc 和 sysfs 文 件 系统 。 为 此 ， 我 们 
要 在 initramfs 的 根 目 录 下 创建 proc 和 和 sys 目录 作为 挂 载 点 : 


vita@baisheng:/vita/initramfss mkdir proc sys 


同时 修改 init 脚 本 ， 添 加 挂 载 proc 和 sysfs 文 件 系统 的 脚本 : 


#1 /1m7 DaSsh 

echo "Hello Linux!" 

export PATH=/usr/sbin:/usr/bin:/sbin:/bin 
mount -n -t devtmpfs udev /dev 

mount -nn -t proc proc /proc 

mount -了 -t svysfs sysfs /sys 

exec /bin/bash 


重新 压缩 initramfs， 并 将 其 复制 到 虚拟 机 ， 重 新 司 动 系统 ， 使 用 命 


令 modprobe 安 闭 ahci 模 块 ， 并 使 用 命令 lsmod 合 看 内 核 安 状 的 模块 ， 如 图 
4-18 所 示 。 


11.10 [正在 运行 ] -Oracle VM VirtualBox 


bash—4.2# modprobe ahci 
ahci: a55 flag set, parallel bus scan disabled 
ahci QO00:00:0d.0: AHCIL O001.0100 32 slots 1 ports 3 Gbps Oxl1 impl 3ATA mode 
hei OOOO:O0:04.0: flags: G4bit ncgq stag only cece 
| 
: 3ATA max UDMAA133 abar mB192860xf QO06000 port Oxf QBO61O0 irg 21 
: 3ATA link up 3.0 Gbps tS3tatus 123 Stontrol 300) 
: ATA-6: VBOX HARDDISK, 1.0, max UPMAA133 
: i16777?216 sectors, multi 126: LBAA48 NCQ tdepth 31/32) 
: Conf igured for UDpMA.X133 
‘OO: Direct-fccess | UBOm% HARDDISK 1.0 FQ: @ ANSI: 5 
[sda] i677?7216 Si2-byute logical blocks: (8.58 GBAB .00 GiB)} 
[sdal] Write Protect is off 
[sda] Write cache: enabled, read cache; enabled, doesn’t support DPO 


Hh i Ps 
[sda] fttached scC3l disk 


Size Used bu 
17351 
17049 
i .天 排 工艺 闻 机 导 同 7 全 机 二 得 
”dewsdal wdewsdar 
a Se , 





四 必 昌 国生 | 个 国 在 cal | 








图 4-18 使 用 modprobe 加 载 ahci 模 块 


根据 lsmod 的 输出 可 见 ， 虽 然 我 们 并 没有 明确 的 指示 modprobe 加 载 
模块 libahci， 但 是 modprobe 根 据 modules.dep.bin 中 记录 的 依赖 关系 ， 自 
动 加 载 了 ahci 依 赖 的 模块 libahci。 


4.6 ”日 动 加 载 便 盘 控 制 右 驱动 


在 前 面 ， 我 们 以 Intel 的 工作 在 AHCI 模 式 下 的 SATA 人 硬盘 控制 器 为 
例 ， 展 示 了 如 何 加 载 硬 盘 控 制 器 的 驱动 。 但 是 ， 除 非 是 为 一 球 特定 的 髓 
入 式 设 备 定制 的 系统 ， 否 则 ， 对 于 一 个 通用 设备 来 说 ， 比 如 PC， 我 们 
是 不 能 假定 硬件 使 用 的 硬盘 控制 器 的 。 因 此 ， 合 理 的 方法 应 该 是 根据 具 
体 的 便 各 控 制 右 加 载 对 应 的 丝 动 模块 。 但 是 依靠 用 户 目 己 手动 来 完成 
中? 姑且 不 提 是 否 方便 易 用 ， 除 非 专业 用 户 ， 人 否则 普通 用 户 如 何 知 道 应 
该 加 载 哪些 驱动 模块 呢 ? 


从 2.6 版 内 核 开 始 ，Linux 采 用 udev 管 理 驱 动 模块 的 加 载 以 及 设备 节 
点 的 过 理 。 每 当 内 核发 现 新 的 设备 ， 便 通过 NETLINK 问 用户 空 间 及 送 
新 设备 事件 ， 访 事件 中 记录 了 设备 的 相关 信息 。 用 户 空间 的 udev 服 务 进 
程 收 到 内 核 事 件 后 ， 根 据 事 件 中 携 市 的 信息 ， 自 完 判断 该 设备 的 驱动 古 
售 已 经 加 载 ， 如 条 疫 有 ， 则 加 载 驱 动 。 张 动 加 载 后 ， 内 核 会 再 次 同 用 户 
空间 报 香 及 现 新 设备 事件 ， 这 时 设备 已 经 成 功 张 动 了 了， 并 且 主 次 设备 所 
等 信息 也 已 经 准备 好 了 ，udev 收 到 事件 后 ， 或 者 为 设备 建 并 市 态 ， 或 者 
执行 某 些 特定 的 操作 。 整 个 过 程 如 图 4-19 所 示 。 


Kernel Driver Core 


(The kernel driver cores (pcl,usb...) read the device/vendor Id and other device attributes) 





Uevent 
“add@/devices/ipci0000:00/0000:00:1f.2\0IACTION=add\0MODALIAS=pci:v00008086...” 


Udevd 


(Create a process for each uevent) 


Udev Event Process 


Match event to rules 


Load Modules Create/remove device nodes 
(modprobe $env{ MODALIAS}) (mknod) 


Run other programs,... 


modules.alias.bin, 
modules.dep.bin, ... 





图 4-19 上 自动 加 载 设备 驱动 过 程 
读者 可 能 会 有 一 点 疑问 ， 既然 有 了 devtmpfs， 为 什么 还 需要 udev? 


首先 ， 也 是 最 重要 的 一 点 ，devtmpfs 仅 是 记录 了 设备 张 动 注 册 的 节 
上 态 。udev| 除 了 创建 设备 广 点 外 ， 还 要 人 负 贡 加 载 设 备 张 动 。 后 者 是 
devtmpfs 所 不 能 实现 的 ，devtmpfs 仪 是 一 个 被 动 的 记录 数据 的 文件 系统 
出 电 


其 次 ， 使 用 udev， 在 及 现 新 设备 或 者 设备 上 肥 生 了 更 新 时 ， 可 以 有 机 
会 执行 某 些 特定 的 动作 。 比 如 在 建立 新 设备 时 ， 为 设备 节点 建立 额外 的 


从 与 链接 。 


下 面 我 们 惑 分 别 讨 论 一 下 上 面 拉 述 的 各 个 过 程 。 


4.6.1 内核 同 用 户 空 间 及 达 事 件 


PC 机 上 的 硬盘 控制 器 ， 无 论 是 IDE 接 口 的 ， 还 是 SATA 接 口 的 ， 一 
般 都 是 通过 PCI 总 线 连接 到 计算 机 上 的 。 内 核 在 引导 时 ，PCI 子 系统 将 进 
行 仍 始 化 ， 枚 举 总 线 上 的 衣 备 ， 并 答 试 为 设备 匹配 张 动 ;然后 将 收集 到 
的 设备 相关 信息 组 织 为 uevent 事 件 ; 接 大 调用 kobject_uevent， 退 过 
NETLINK 将 组 织 好 的 uevent 友 达到 用 尸 空 间 ， 通 知 udev 有 新 设备 了 。 何 
时 地 讲 ， 内 核 的 工作 就 是 探测 并 收集 设备 信息 ， 将 其 包 沪 到 uevent 事 件 
中 ， 然 后 友 送 到 用 户 空 间 。 


事实 上 ， 无论 是 发 现 新 的 设备 ， 还 是 有 新 的 驱动 载 入 ， 抑 或 是 用 户 
回 sysfs 中 的 uevent 写 入 字符 串 ， 内 核 都 将 调用 机 数 kobject_uevent 回 用 户 
空间 发 送 事 件 ， 其 代码 如 下 所 示 : 


linux-3.7.4/l1ib/kobject uevent.c 
int kobject uevent (struct kobject *kobj, ...) 


return kobject uevent env(kob], action, NULL).; 


int kobject uevent env(struct kobject *kob]j, ...) 
struct kob] uevent env *env; 
const struct kset uevent ops *uevent ops; 
/* search the kset we belong to */ 
top kob] = kob]j; 
while (!top kob]j->kset && top kob]j->parent) 


top kob] = top kob]j->parent; 


kset = top kob]j]->kset,; 
Uevent ops = kset->uevent ops; 


env = kzalloc(sizeof (struct kob] uevent env), GFP KERNEL).; 
retval = add uevent varl(lenv, "ACTION=%s'", action string); 
if (retval) 

goto exit; 
retval = add uevent varl(lenv, "DEVPATH=%s", devpath),， 
if (retval) 

goto exit; 


retval = add uevent varlenv, "SUBSYSTEM=%s", subsystem); 


if (uevent ops && uevent ops->uevent) { 
retval = uevent ops->uevent (kset, kob], env); 


结构 体 kobj_uevent_env 用 来 保存 收集 到 的 设备 相关 信息 ， 所 以 在 函 
数 kobject_uevent_env 中 ， 首 先 为 kobj_uevent_env 申 请 了 一 块 内 存 ， 即 变 
量 env 指 同 的 内 和 存 ， 用 来 临时 存放 准备 发 运 到 用 户 空 间 的 设备 相关 信 
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然后 回访 内 存 中 添加 了 三 个 默认 的 变量 ， 包 括 ACTION、 


DEVPATH 和 SUBSYSTEM。 其 中 ACTION 指 的 是 热 插 拔 的 动作 ， 

如 "add"，"remove"，"change" 等 。DEVPATH 指 的 是 设备 在 sysfs 文 件 系 
统 中 注册 的 设备 路 径 ， 比 如 笔者 的 硬 舟 sda 的 DEVPATH 

是 "/devices/pci0000:00/0000:00:1f.2/atal/host0/target0:0:0/0:0:0:0/block/sda' 
SUBSYSTEM 一 般 是 指 设备 所 在 的 总 线 ， 比 如 笔者 的 硬盘 是 挂 在 PCI 总 


线 上 的 ， 因 此 该 变 量 的 值 是 "pci"。 


在 Linux 的 设备 模型 中 ， 除 了 总 线 、 设 备 以 及 驱动 这 些 对 象 外 ， 还 
定义 了 集合 ， 有 某 些 相似 特性 的 kobject 将 被 组 织 到 一 个 集合 中 。 所 以 我 
们 看 到 ， 在 函数 kobject_uevent_env 的 开头 ， 寻 找 硬 盘 控 制 器 所 属 的 集 
合 ， 并 在 同 uevent 中 添加 了 三 个 默认 的 变量 后 ， 调 用 硬盘 控制 苑 所 属 的 
集合 的 uevent_ops 中 的 函数 uevent 继 续 占 uevent 中 追加 变量 。 对 于 硬盘 控 
制 器 来 说， 其 所 属 的 集合 是 devices_kset， 这 是 PCI 总 线 在 初始 化 设备 时 
设 定 的 ， 相 关 定 义 如 下 : 


linux-3.7.4/drivers/base/core.c 


static const struct kset uevent ops device uevent ops = { 
filter = dev uevent filter., 
.name = dev uevent name, 
.Uevent = dev uevent, 


上 


static int dev uevent (struct kset *kset, struct kobject *kob] ， 
struct kob] vevent env *enyv) 


struct device *dev = kob] to dev (kob]); 
int retval = 0; 


/* add device node properties if present */ 
if (MAJOR(dev->devt)) { 

const char *tmp; 

const char *name; 

umode t mode = 0; 


add uevent varlenv, "MAJOR=%u", MAJOR (dev->devt) ) ; 
add uevent Var (enV， "MINOR=%u", MINOR (dev->devt)),; 
name = device get devnode(dev, &mode, &tmp); 
if (name) { 

add uevent varlenv, "DEVNAME=%s", name),; 

kfree (tmp) ; 

if (mode) 

add uevent varl(lenv, "DEVMODE=%#0o", mode & 0777); 


if (dev->type && dev->type->name) 
add uevent varlenv, "DEVTYPE=%s", dev->type->name); 


if (dev->driver) 
add uevent varl(lenv, "DRIVER=%s'", dev->driver->name); 


/* have the bus specific function add its stuff */ 
if (dev->bus && dev->bus->uevent) { 
retval = dev->bus->uevent (dev, env); 


dev_uevent 回 uevent 中 继续 增加 一 些 设 备 相 天 的 变量 ， 包 括 设 备 节 
点 的 主 次 设备 号 、 名 称 、 设 备 节点 的 读 、 写 和 执行 权限 、 设 备 的 类 型 以 
及 驱动 模块 的 名 称 等 准备 发 送 到 用 户 空间 的 变量 。 在 设备 枚 从 阶段 ， 


为 设备 还 没有 被 驱动 ， 所 以 这 些 信 息 是 没有 的 。 只 有 当 设 备 被 正确 地 
动 后 ， 内 核 同 用 户 空 间 发 送 的 uevent 中 才 包 含 这 些 信 息 


除了 设备 信息 外 ， 设 备 所 属 的 总 线 也 可 能 需要 向 用 户 空 间 报告 一 些 
设备 所 在 的 总 线 的 相关 人 信息。 因此， 如 果 设 备 属于 某 个 总 线 ， 函 数 
dev_uevent 则 还 要 调用 设备 所 属 总 线 的 event 图 数 。PCI 的 设备 总 线 类 型 
pci_bus_type 及 其 中 的 uevent 函 数 代 码 如 下 : 


linux-3.7.4/drivers/pci/pci-driver.c 


struct bus type pci bus type = { 


.name = MHC 
match = pci bus match, 
.Uevent = pcli Uevent, 


和 
linux-3.7.4/drivers/pci/hotplug.c 


int pci uevent (struct device *dev, struct kob] uvevent env *env) 


{ 


struct pci dev *pdeyv; 
pdev = to pci dev (dev); 


if (add uevent varl(lenv, "PCI CLASS=%04X", pdev->class)) 
return -ENOMEM.,; 


If (add uevent Var (enV， "PCI ID=%04X:%04X", pdev->vendor, 
pdev->device)) 
return -ENOMEM ; 


if (add uevent varlenv,; "PCI SUBSYS ID=%04X:%04X", 
pdev->subsystem vendor, pdev->subsystem device)) 
return -ENOMEM ; 


1if (add uevent Var(env，"PCI SLOT NAME=%s", pci name (pdev))) 
return -ENOMEM; 


If (add uevent var (enV， 
"MODALIAS=pci:v%S08Xd%08Xsv%08Xsd%08Xbc%02Xsc%02Xi%02x", 
pdev->vendor, pdev->device, 
pdev->subsystem vendor, pdev->subsystem device, 
(u8) (pdev->class >> 16), (uu8) (pdev->class >> 8), 
(uU8) (pdev->class))) 

return -ENOMEM ; 
return 0; 


pci_uevent 义 巾 uevent 中 追加 了 pci class、vendor id、device id 以 及 


MODALIAS 等 变量 ， 其 中 MODALIAS 需 要 重点 关注 ， 其 是 


是 由 设备 所 在 


总 线 、vendor ID 、device ID 等 相关 参数 连接 而 成 的 一 个 字符 串 。 在 接 下 


来 的 章节 中 ， 旋 者 将 看 到 ， 用 户 空间 的 udev 恰 恰 就 是 根据 这 
备 死 配 驱 动 模块 的 。 


X 个 变量 为 设 


除了 电线 外 ， 如 来 便 盘 控制 融 所 属 的 class 或 者 type 也 第 要 继续 问 
uevent 中 退 加 变量 ， 则 继续 调用 人 硬盘 控制 亚 所 属 的 class 或 者 type 中 的 相 
应 的 函数 ， 这 里 不 再 继续 分 机 了 。 节 终 ， 内 核 癌 用户 空间 肥大 的 uevent 
事件 包含 的 大 致 的 内 容 如 下 ， 其 中 不 同 变量 之 间 使 用 0” 进行 分 隔 。 


"add@/devices/pci0000:00/0000:00:1f.2\0 

ACTION=add\0 

DEVPATH=/devices/pci0000:00/0000:00:1f.2\0 

SUBSYSTEM=pci\0 

PCI CLASS=10601\0 

PCI ID=8086: CS 

PCI _ SUBSYS ID=17AA:21CE\0 

PCI SLOT NAME=0000:00:1f.2\0 
MODALIAS=pci:Vv00008086d00001C03sv000017AAsd000021CEbc01l1sc06i01 \0 
SEQNUM=1206\0" 


当 伴 随 看 热 插 拔 事 件 一 同 发 往 用 户 空 间 的 变量 准备 完毕 后 ， 
kobject_uevent_env 使 用 内 核 和 用 户 空间 的 通信 协议 NETLINK 回 用 户 至 
间 报 告 事件 ， 代 码 如 下 : 


linux-3.7.4/1ib/kobject uevent.c 


int kobject uevent envlstruct kobject *kob]j, ...) 


人 

Struct Sk buff *skb; 

skb = alloc skbl(llen + env->butlen, GFP KERNEDL).,; 

if (skb) { 
har scrateclis 
/* add header */ 
scratch = skb put (skb, len); 
sprintf (scratch, "%s@%s", action string, devpath); 
/* copy keys to our continuous event payload buffer */ 
for (i = 0; i < env->envp idx; i++) { 

len = strlen(lenv->envpl[li]) + 1; 


scratch = skb put (skb, len); 
strcpy (scratch, env->envpli]).; 


} 


NETLINK CB (skb) .dst group = 1; 

retval = netlink broadcast filtered(uevent sock, skb, 
Oy ls GEP KERNEL., 
kob] bcast filter, 
Kob]); 


kobject_uevent_env 申 请 了 一 个 结构 体 sk_buff 类 型 的 变量 skb， 这 个 
skb 就 是 用 来 封装 报 文 的 。 报 文 以 形 
如 "ACTION@DEVPATH" (如 "add@/devices/pci0000:00/0000:00:1f.2") 
的 格式 开头 ， 紧 接着 的 消息 体 中 封装 的 就 是 前 面 收 集 到 的 存储 在 变量 
env 中 的 变量 。 


至 此 ， 对 于 加 载 便 盘 控 制 融 驱动 这 个 任务 ， 内 核 已 经 完成 了 它 的 使 
命 : PCI 子 系统 获取 硬盘 控制 器 的 信息 ， 并 将 其 通过 NETLINK 抛 到 了 用 
性 空间 。 接 下 来 ， 该 用户 空 间 的 udev 出 场 了 。 


4.6.2” ”udev 加载 驱动 和 建 并 设备 节点 


前面 我 们 探讨 了 内 核 回 用 户 空 间 报告 uevent 事 件 的 过 程 。 这 一 节 ， 
我 们 来 讨论 udev 是 如 何 根 据 内 核 报 告 的 uevent 事 件 加 载 价 盘 控 制 闫 驱动 
以 及 建立 议 备 节点 的 。 


udev 是 用 户 空间 动态 管理 设备 的 机 制 ， 包 括 加 载 张 动 、 稼 理 设 备 蔬 
点 等 。udev 机 制 的 核心 是 其 服务 进程 udevd。 当 局 动 过 程 进 入 用 户 空 间 
阶段 后 ，udevd 将 被 启动 。udevd 启 动 后 ， 首 先 恋 取 并 分 析 所 有 的 规则 文 
件 ， 并 将 其 组 存在 内 存 中 。 一 般 情 况 下 ， 系 统 默认 的 规则 文件 存放 
在 上 iib/udev/rules.d 目 录 下 ， 用 户 目 定义 的 规则 存放 在 /etcudev/rules.d 目 录 
下 。 每 当 动态 地 增加 、 删 除 或 者 改变 某 个 规则 文件 时 ，udevd 将 更 新 其 
缓存 在 内 存 中 的 规则 。 然 后 ，udevd 通 过 NETLINK 协 议 ， 监 听 并 处 理 来 
目 内 核 的 uevent 事 件 。 每 当 udevd 收 到 一 个 内 核 的 uevent，udevd 均 创建 
一 个 单独 的 子 进程 处 理 uevent。 


对 于 每 个 内 核 报告 的 uevent，udevd 根 据 uevent 中 的 变量 逐个 匹配 规 
则 。 规 则 文件 通常 以 数字 开 尖 ， 数 字 小 的 和 完 进行 匹配 。 厂 每 个 规则 文件 
中 包含 若干 个 规则 ， 同 一 规则 不 允许 断 行 ， 每 个 规则 至 少 包 含 一 个 key- 
value 对 ， 每 个 key-value 对 之 间 使 用 逗号 分 阳 。 可 以 将 规则 理解 为 由 迈 配 
条 件 和 赋值 动作 组 成 ， 当 所 有 的 逻 配 条 件 都 满足 后 ， 赋 值 动 作 束 会 发 


生 。 规 则 中 可 以 加 载 驱 动 模 块 ， 规 定 如 何 给 设备 接 扣 命名、 建立 从 号 连 
接 ; 设备 连接 和 断 开 时 分 别 执 行 指定 的 程序 等 。 


前 面 我 们 看 到 内 核 在 友 现 新 设备 时 会 将 设备 的 一 些 信息 通过 
NETLINK 发 送 到 用 户 空 间 ，udev 接 收 到 事件 后 ， 如 果 发 现 设备 尚未 被 
驱动 ， 将 尝试 加 载 驱动 模块 。 那 么 udev 如 何 确 定 设 备 对 应 的 驱动 模块 
呢 ? 一 般 而 言 ， 根 据 设 备 的 vender ID 和 device ID 就 可 以 标识 一 类 设备 ， 
当然 有 的 也 需要 根据 subvendor ID 和 subdevice ID 进 一 步 细 分 。 而 在 驱动 
代码 中 ， 恰 恰 使 用 这 些 设备 信息 明确 声明 了 其 可 以 支持 的 设备 。 以 驱动 
AHCI 模 式 的 SATA 人 硬盘 控制 器 驱动 为 例 : 


Ina. 7 0/vi drivere/aturabled.e 

atatic conat Struet, pel device id abci pol 二 bl 器 呈 《 
/* Intel */ 
{ PCI VDEVICE (INTEL, 0x2652), board ahci }, /* ICH6 */ 
{ PCI VDEVICE(INTEL, 0x2653), board ahci }, /* ICH6M */ 


(CI VDEVICE(INTEL, VELGO03),. Doard Gd }s /t Chr RCI *y 


/* AMD */ 
{ PCI VDEVICE (AMD, 0x7800), board ahci }, /* AMD Hudson-2 */ 


:ww NYTIDIA w/ 
{ PCI VDEVICE(NVIDIA, 0x044c), board ahci mcp65 }, /* MCP65 */ 


ID table 中 的 每 一 项 表示 该 驱动 支持 的 一 类 设备 ， 根 据 
PCI VDEVICE 的 定义 : 


#define PCI VDEVICE (vendor, device) “ 
PCI VENDOR ID ##vendor, (‘device), \ 
per BNY TD Per NY TH WH 


以 ahci_pci_tbl 中 的 第 一 项 为 例 ， 访 项 声明 了 该 驱动 文 持 vender ID 为 
PCI VENDOR ID INTEL (0x8086) ，device ID 为 0X2652，Ssubvendor 


ID、subdevice ID 为 任意 的 Pntel SATA 挖 制 器 。 


内 核 将 ID table 中 的 每 一 项 中 的 信息 按照 一 定 的 格式 组 合 起 来 ， 作 
为 驱动 的 一 个 别名 。 这 些 别 名 存储 在 编译 好 的 驱动 模块 中 ， 模 块 安装 
后 ， 需 要 使 用 工具 depmod 将 其 提取 出 来 并 存储 在 /lib/modules/uname-r 目 
杂 下 有 的 modules.alias.bin/modules.aliass 中 ， 如 同 前 和 面 讨论 的 modules.dep 和 和 
modules.dep.bipn 的 关系 一 样 ，modules.alias.bin 与 nodules.alias 完 全 相同 ， 
只 不 过 modules.alias.bin 是 为 了 加 快 搜索 速度 采用 Trie 树 存储 的 。 很 多 读 
者 可 能 会 说 ， 编 译 安装 模块 时 从 来 没有 显示 执行 depmod 啊 ， 那 是 因为 


make 等 安装 脚本 已 经 蔡 我 们 调用 了 这 个 命令 。 


我 们 可 以 使 用 工具 modinfo 来 符 看 驳 动 模块 的 相关 信息 ， 下 面 是 得 
看 驱动 模块 ahci 的 别名 信息 。 


vita@baisheng:/vitas modinfo -F alias N\ 
sysroot/lib/modules/3.7.4/kernel/drivers/ata/ahci .ko 
DCl1 :Vv*d*sv*sd*DbcO0l]sc06101* 
PCl:VvO0001]B21d000006]2sv*+sd*DcC*sc*1* 
DCl1:V0000]B2]d000006]l]sv*sd*DcC*sc*1* 
PCl1:VvO00008086d00002653sv*sd*Dc*sc*]1* 
DECl1L :VO0008086d000026528v*sd*Do*scC*]1* 
，_]~ 大 人 、 一 一 一 上 上 HH 5 一 上 口 
上 述 输 出 表示 驱动 模块 ahci 可 以 驱动 别名 
为 "pci:v*d*sv*sd*bc01sc06i01*"、"pci:v00001 
.1 入 所 六 、 了 
B21d00000612SsV*sd*bcyscxix" 等 的 设备 ， 其 中 “表示 可 以 匹配 任意 
1D 。 


通过 depmod 生 成 的 典型 的 modules.alias 文 件 如 下 所 示 : 


allilas pCl :vO0008086d0000]C0O3sv*+sd*Dbc*sc*1* ahcl 
allilas pCcl:vOO0008086d0000]CO2sv*+sd*bc*sc*1* ahcl 


allas PClL :vO0001]]0ld00001]622sv*+sd*bcoc*sc*1* Sata inlicl62x 
alias pcl:vO00001095d0000353lsv*sd*Dbc*sc*]* sata S1124 


显然 ， 这 个 文件 吏 是 简单 地 将 列 名 和 张 动 名 称 对 应 起 来 。 


前 面 讨论 内 核 向 用 户 空间 发 送 uevent 时 ， 我 们 看 到 ， 内 核 将 在 
uevent 的 消 恩 体 中 封装 一 个 变量 MODALIAS， 其 值 形 
如 "pci:v00008086d00001C03sv000017AAsd000021CEbc01s c06i01"。 看 
上 去 是 不 是 与 驱动 的 别名 一 致 ? 没 错 ， 内 核 的 设计 者 们 设计 了 这 个 机 
制 ， 内 核 创 建 变量 MODALIAS 和 模块 创建 别名 采用 相同 的 算法 。 当 


udevd 收 到 内 核 uevent 后 ， 从 uevent 中 提取 这 个 字符 串 ， 然 后 将 这 个 字符 


串 作 为 modprobe 的 参数 。modprobe 首 先 查 找 文件 modules.alias.bin， 将 该 
别名 对 应 的 模块 找到 。 以 该 别名 为 例 ， 显 然 其 会 与 上 面 modules.alias 文 
件 片 断 中 的 第 一 行 匹 配 成 功 ， 而 该 行 明 确 表明 该 别名 对 应 的 驱动 模块 是 
ahci， 因 此 ，modprobe 将 加 载 模块 ahci。 


udev 设 计 了 规则 文件 80-drivers.rules 用 来 描述 如 何 加 载 驱 动 模 块 ， 
以 v173 上 所 本 的 udev 的 80-drivers.rules 为 例 : 


udev-173/rules/rules.d/80-drivers.rules 
ACTION=="remove", GOTO="drivers end" 


DRIVER!="?*", ENV{MODALIAS}=="?*", RUN+='"/sbin/modprobe -byv 
$env {MODALIAS}'" 


LABEL="drivers end" 


我 们 先 来 看 第 一 个 规则 ， 该 规则 表示 如 果 uevent 的 动作 是 删除 设备 
(remove) ， 则 忽略 下 面 所 有 规则 ， 什 么 也 不 用 做 。 


第 二 个 规则 包 舍 两 个 匹配 条 件 ， 一 个 赋 信 动作 。 其 中 “2 匹配 一 个 
字符 ，“*” 风 配 0 或 多 个 字符 。 这 个 规则 表达 的 含义 是 : 当 设 备 还 没有 加 
载 驱动 ， 即 环境 变量 DRIVER 的 全 为 衬 ， 并 且 环 境 变 量 MODALIAS 的 人 
非 空 ， 那 么 调用 modprobe 加 载 驱动 。 我 们 看 到 这 里 加 载 模块 的 方式 就 是 
采用 我 们 前 面 讨论 的 别名 的 方式 。 这 里 追加 到 环境 变量 RUN 中 的 程序 ， 
如 果 不 给 出 绝对 路 径 ， 将 在 上 ibmudev 目 录 下 寻找 ， 如 果 这 个 程序 不 
在 省 bjudev 目 录 下 ， 必 须 给 出 绝对 路 径 。 


80-drivers.rules 也 会 包含 对 个 别 特殊 subsystem 类 型 的 设备 的 特殊 处 
理 ， 我 们 这 里 不 作 过 多 讨论 。 


一 旦 驱动 锐 正 确 加 载 ， 并 且 人 设备 需要 在 用 尸 空 间 建 立 设备 人 上 扣 ， 于 
么 内 核 向 用 户 空间 再 次 报告 的 uevent 中 会 包含 创建 设备 节点 需要 的 主 次 
设备 写 以 及 节 扩 的 名 称 等 环境 变量 ， 类 似 于 下 面 的 这 个 示例 uevent 事 
件 。 事 实 上 ， 在 及 现 设 备 、 加 载 驱动 过 程 中 ， 内 核 一 般 会 多 次 同 用 户 空 


名 含 


则 报告 uevent 事 件 ， 只 有 设备 和 驱动 史 配 成 功 后 友 壕 的 事件 中 才 会 包 全 
主 炊 设备 写 等 变量 。 


"add@/devices/pci0000:00/0000:00:1f.2/atal/host0/target0:0:0/0:0:0:0/block/sda/ 
sdal\d0 

ACTION=add\0 

DEVPATH=/devices/pci0000:00/0000:00:1f.2/atal/host0/target0:0:0/0:0:0:0/block/ 


sda/sdal\do 
SUBSYSTEM=block\0 
DEVNAME=sdal\0 


DEVTYPE=partition\0 
MAJOR=8\0 

MINOR=1\0 
SEQNUM=1204\0" 


该 请 轧 中 ， 内 核 为 udev 创 建设 备 节 氮 提 供 了 必要 的 变量 ， 包 括 主 设 
备 写 为 8， 雇 设备 写 为 1， 内 核 近 供 的 该 设备 节 反 的 名 字 为 sdal。 妆 
udevd 收 到 的 uevent 消 息 中 ， 如 果 uevent 的 变量 中 包含 设备 号 ， 则 使 用 系 
统 调用 mknod 创 建设 备 节 点 。 


4.6.3 ”处 理 冷 插 拔 设备 


前 面 我 们 讨论 了 动态 加 载 驱动 的 整个 过 程 。 但 是 不 知道 读者 四 过 设 
有 ， 对 于 人 磁盘 这 种 非 热 插 拔 设备 ， 如 下 驱动 没有 编 详 进 内 核 ， 那 么 当 内 
核 引 寻 枚 举 设备 时 ， 系 统 运 行 在 内 核 空间 ， 尚 未 进入 用 户 空 间 ， 更 谈 不 
上 局 动用 户 空 间 的 udev 服 务 了 ， 因 此 内 核 友 送 到 用 户 空 间 的 uevent 目 然 
会 饮 丢 挥 ， 喝 列 提 加 载 便 盘 驱动 模块 和 建立 设备 着 把 了 。 


为 了 解决 这 个 问题 ， 本 
机 制 。 在 Linux 操 作 系 统 进入 用 户 空 间 ，udevd 司 动 后 ， 通 过 sys 文 件 系统 
请 求 内 核 重 新 发 出 uevent。 此 时 udevd 已 经 启动 了 ， 就 会 收 到 uevent， 然 
后 结合 这 些 事件 和 规则 ， 完 成 驱动 的 加 载 、 设 备 节 点 的 建立 等 。 我 们 可 
以 将 这 个 过 程 看 作 是 内 核 和 udev 导 演 的 一 出 戏 ， 对 于 冷 插 拔 的 设备 ， 模 
拟 了 一 遍 热 插 拔 的 过 程 。 


下 和 面 我 们 简单 探讨 一 下 这 个 机 制 的 原理 。 


当 新 设备 注册 时 ， 内 核 将 调用 device_create_file 在 sys 文 件 系 统 中 为 
设备 注册 一 个 名 字 为 uevent 的 文件 ， 当 用 户 空 间 的 程序 读 取 该 文件 时 ， 
内 核 将 调用 函数 show_uevent 处 理 用 户 的 读 操作 ， 而 当 用 户 空间 的 程序 
向 该 文件 写 入 时 ， 内 核 将 调用 函数 store_uevent 处 理 用 户 的 写 操作 。 我 们 
以 冰 数 store_uevent 为 例 ， 看 看 内 核 是 如 何 处 理 用 户 的 写 操作 的 。 函 数 


store_uevent 代 人 码 如 下 : 


linux-3.7.4/drivers/base/core.c 


static ssize t store uevent (struct device *dev, struct 
device attribute *attr, const char *buf, size 七 count) 


人 


enum kobject action action; 


if (kobject action type (buf, count, &action) == 0) 
kobject uevent (&dev->kob], action); 

else 
dev err(dev, "uevent: unknown action-string\n"); 


二 


store_uevent 的 参数 buf 指 回复 制 目 用 户 空间 的 用 户 写 入 的 字符 串 。 
图 数 kobject_action_type 根 据 buf 中 的 字符 串 ， 来 决定 发 送 给 用 户 空间 的 
uevent 的 类 型 。 写 入 的 字符 串 和 发 送 的 事件 类 型 间 的 对 应 关系 的 代码 如 
下 所 示 。 


linux-3.7.4/include/linux/kobject.h 


enum kobject _ action 1{ 
KOBJ ADD， 
KOBJ _ REMOVE， 

KOBJ CHANGE, 
KOBJ MOVE, 
KOBJ ONLINE, 
KOBJ OFFLINE, 
KOBJ MAX 


ys 


linux-3.7.4/1ib/kobject uevent.c 


static const char *kobject actions | = { 
[KOBJ ADD] = add", 
[KOBJ REMOVE] = "remove'", 
[KOBJ CHANGE] = "change'", 
[KOBJ MOVE] = "move'", 
[KOBJ ONLINE] = "online", 
[KOBJ OFFLINE] = noffline", 


rf 


也 就 是 说 ， 当 用 户 空 间 的 程序 同 访 属性 文件 写 入 字 从 串 "add" 时 ， 
图 数 kobject_action_type 认 为 用 户 衬 间 的 程序 要 求 KOBJ_ADD 凑 型 的 事 
件 ， 于 是 调用 kobject_uevent 同 用 户 空 间 发 这 KOBJ_ADD 类 型 的 uevent。 


利用 这 种 机 制 ， 我 们 可 以 在 用 户 空间 的 udev 服 务 程序 启动 后 ， 回 所 
有 设备 的 属性 文件 uevent 写 入 "add" 字 符 串 ， 请 求 内 核 重 新 发 送 一 遍 
KOBJ ADD 事件， 模拟 一 过 热 插 拔 动 作 。 如 此 ，udevd 就 可 以 收 到 这 些 
事件 ， 完 成 驱动 加 载 、 设 备 节点 创建 等 工作 。 


为 此 ，udev 提 供 了 一 个 管理 工具 udevadm， 我 们 可 以 使 用 这 个 工具 
请 求 内 核 重 新 发 送 设 备 相 关 事 件 。 假 设 请 求 内 核对 全 部 设备 模拟 一 过 热 
插 拔 ， 即 重新 发 送 事件 KOBJ ADD， 则 使 用 如 下 命令 : 


udevadm trigger --action=add 


我 们 来 价 单 地 看 一 下 这 个 命令 衣 后 的 代码 : 


udev-173/udev/udevadm-trigger.c 


const struct udevadm cmd udevadm trigger = { 
.name = "trigger'", 
.cmd = adm trigger, 
.help = "request events from 七 he kernel'", 


}; 


static int adm trigger (struct udev *udev, int argc, char *argv[]) 


人 


switch (device type) |{ 


Cags TPE DEVIGES: 
udev enumerate scan devices (udev enumerate), 
exec list (udev enumerate, action); 


} 


static void exec list(struct udev enumerate *udev enumerate, 
const char *action) 


人 


struct udev *udev = UQev enumerate get udev (udev enumerate); 
struct udev list entry *entry:; 


udev list entry foreach (entry, 


udev enumerate get list entry(udev enumerate)) { 
char filename [UTIL PATH SIZE]; 
nt Edy 


util strscpyl (filename, sizeof (filename), 
udev list entry get name (entry), "/uevent", NULL); 
fd = open(filename, O WRONLY) ; 


if writet{fd, action; strlen(action}) < 0 


info(undev, "error writing $B' to $8 Th\n", action, 
filename).; 


close (fd); 


根据 上 面 代码 可 见 ，udevadm 的 trigger 命 令 对 应 的 函数 是 
adm_trigger。 当 用 户 请 求 内 核 重 新 发 送 设 备 相关 的 事件 时 ，adm_trigger 
首先 调用 udev_enumerate_scan_devices 在 sys 文 件 系统 中 寻找 设备 ， 使 用 
udevadm 的 trigger 命 令 时 我 们 可 以 指定 一 些 属性 ， 匹 配 特 定 的 设备 。 但 
是 无 论 如 何 ， 会 有 多 个 设备 满足 匹配 条 件 的 情况 ， 比 如 我 们 上 面 的 命 
令 ， 没 有 任何 限制 条 件 ， 那 么 内 核 将 匹配 所 有 设备 。 于 是 udev 在 结构 体 


udev_enumerate 中 设计 了 一 个 链表 ，udev_enumerate scan devices 将 找到 


的 所 有 设备 连接 到 结构 体 udev_enumerate 中 的 设备 链表 中 。 


然后 ，adm_trigger 调 用 函数 exec_list 裔 历 这 个 链表 ， 向 这 些 设备 在 
sys 文 件 系 统 中 注册 的 属性 文件 uevent 写 入 用 户 请 求 内 核 重 新 发 送 的 事件 
类 型 对 应 的 字符 串 。 比 如 ， 如 果 请 求 内 核发 送 KOBJ_ADD 类 型 的 
uevent， 则 写 入 字符 串 "add"; 如 果 请 求 内 核 友 过 KOBJ_CHANGE 类 型 的 


AAA 全 


uevent， 则 写 入 字符 串 "change"， 等 等 。 


4.6.4” 编 详 安 装 udev 


前 面 几 节 我 们 探讨 了 相关 的 工作 原理 ， 从 本 节 开 始 ， 我 们 开始 动手 
实践 驱动 模块 的 目 动 加 载 过 程 。 


为 系统 局 动 程序 systemd 和 和 和 udev 之 间 的 依赖 天 系 ， 为 了 方便 开 友 
编译 ， 所 以 社区 中 已 经 将 udev 和 systemd 合 并 了 。 但 是 本 书 中 我 们 不 讨 
论 systemd， 为 了 减少 干扰 ， 本 书 中 便 用 疝 未 合并 前 的 udev。 合 并 前 
后 ，udev 本 质 上 并 没有 什么 达 列 。 


使 用 如 下 命令 编译 安装 udev〔 我 们 采用 的 版 本 是 udev 173) : 


vita@baisheng:/vita/builds tar xvf ../source/udev-173.tar.xz 
vita@baisheng:/vita/build/udev-173$ ./configure --prefix=/usr \ 
--Sysconfdir=/etc --sbindir=/sbin --libexecdir=/lib/udev \ 


--disable-hwdb --disable-introspection \ 

--disable-keymap --disable-gudeyv 
vita@baisheng:/vita/build/udev-173$ make 
vita@baisheng:/vita/build/udev-173$ make install 

指定 --libexecdir 的 目的 古 告 诉 安 六 脚本 将 udev 的 规则 文件 以 及 一 些 
helper 程 序 安 装 在 /lib/udev 目 录 下 。 我 们 使 用 --disable 选 项 禁 挥 udev 个 必 


要 的 一 些 特性 ， 也 减少 了 udev 对 其 他 库 的 依赖 和 系统 的 复 淋 性。 


接 下 来 将 udevd、udevadm 以 及 相关 的 规则 文件 安装 到 initramfs 中 : 


vita@baisheng:/vitas ldd sysroot/sbin/udevd 
LIDrtb Ho = /LLYvVoEoGry TLDALLIDEC BG: 
libgcc s.so0o.1 => 
/Vita/cross-tool/i686-none-linux-gnu/lib/libgcc s.so.1 
libeouaos Ge := /vitatreveroot/ lib/ libes so 


vita@baisheng:/vitas ldd sysroot/sbin/udevadm 
Lit SOL 关中/ 洛克 站 首部 和 二 二 二 党 二 BG. 
ein 本 
/Vita/cross-tool/i686-none-linux-gnu/lib/libgcc s.so.1 
libc, S06 => /vita/syvsroot/ lib/ylibc 306 


vita@baisheng:/vitas cp sysroot/sbin/udevd initramfs/bin/ 

vita@baisheng:/vitas$ cp sysroot/sbin/udevadm initramfs/bin/ 

vita@baisheng:/vitas$ mkdir -p initramfs/lib/udev/rules.d 

vita@baisheng:/vitas cp \ 
sysroot/lib/udev/rules.d/80-drivers.rules \ 
initramfs/lib/udev/rules.d/ 


udevd 和 udevadm 依 赖 的 库 在 前 面 已 经 复制 到 initramfs 中 了 ， 所 以 只 
需 将 udevd、udevadm 和 和 加载 驱动 的 规则 ， 即 80-drivers.rules， 复 制 到 


initramfsBH 9] 。 


4.6.5 配置 内 核 文 择 NETLINK 


内 核 与 udevd 通 过 Unix Domain Sockets 使 用 NETLINK 协 议 进行 通 
言 ， 因 些 ， 我 们 需要 配置 内 核 支 持 Unix Domain Sockets 与 NETLINK 协 


议 O 配置 步骤 如 下 。 


1) 执行 make menuconfig， 出 现 如 图 4-20 所 示 的 界面 。 


Bus options (PCI etc.) ---> 
Executable file formats / Emulations ---> 


Networking support ---»> 
Device Drivers -=--=» 





图 4-20 配置 内 核 支 持 Unix domain sockets 和 NETLINK 协 议 (1) 


2) 在 图 4-20 中 ， 选 择 "Networking support"， 出 现 如 图 4-21 所 示 的 寞 


--- Networkina 
Networkinc 


Amateur Radio support (NEWY) ---> 
CAN bus subsystem syupport (NEW) ---> 





图 4-21 配置 内 核 支 持 Unix domain sockets 和 NETLINK 协 议 (2) 


3) 在 图 4-21 中 ， 选 择 "Networking options"， 出 现 如 网 4-22 所 示 的 界 
面 。 


< > Packet socket 【NEW 
= Unix domain sockets 


< > UNIX: socket monitoring interface (NENW) 
< > PF KEY sockets (NEW) 





图 4-22 配置 内 核 支持 Unix domain sockets 和 NETLINK 协 议 (3) 


4) 在 图 4-22 中 ， 选 中 "Unix domain sockets"。 


对 于 ，NETLINK 协 议 ， 只 要 配置 内 核 支 持 网 络 ，NETLINK 协 议 默 
认 束 被 支持 。 通 过 net 目 录 下 的 Makefile5 以 清楚 地 看 到 这 一 点 : 


lijnux-3.7.4/net/Makefile 


obj-$ {CONFIG NET) += ethernet/ 802/ sched/ netlink/ 


4.6.6 ”配置 内 核 文 持 inotify 


为 udev 使 用 inotify 机 制 监测 udev 的 规则 文件 是 否 发 生变 化 ， 所 以 
配置 内 核 使 其 文 持 inotify 机 制 ， 人 否则 udevd 将 因为 初始 化 inotify 失 败 而 退 
出 。 配 置 过 程 如 下 : 


1) 执行 make menuconfig， 出 现 如 图 4-23 所 示 的 界面 。 


[*] Networking support ---> 
DevtLCe Drivers ---> 


FTLTmware DriVers ---» 
FLE SYS 七 已 丫 S 
Kernel hacking 





图 4-23 配置 内 核 支 持 inotify (1) 


2) 在 图 4-23 中 ， 选 择 "File systems"， 出 现 如 图 4-24 所 示 的 界面 。 


> XFS filesystem support 
> GFS2 file system support 


Dnotify support 
support for USserspace 
FiLLesystem wide access notification 





图 424 配置 内 核 支持 inotify (2) 


3) 在 图 4-24 中 ， 选 中 "Inotify support for userspace"。 


4.6.7“” 安 逆 modules.alias.bin 文 件 


在 安装 内 核 模 块 时 ， 安 装 脚本 最 后 会 日 动 调 用 depmod 创 建 
modules.alias.bin/modules.alias 文 件 。 我 们 直接 将 其 复制 到 initramfs 即 
9]: 

vita@baisheng:/vitas cp \ 


sysroot/lib/modules/3.7.4/modules.alias.bin 
initramfs/lib/modules/3.7.4/ 


如 末 你 在 某 些 特殊 情况 下 ， 圾 要 用 手动 执行 depmod 创 建 
modules.alias.bin、modules.dep.bin 等 文件 ， 相 应 命令 如 下 : 


vita@baisheng:/vitas depmod -b /vita/sysroot/ 3.7.4 


下 面 我 们 验证 一 下 modules.alias.bin 是 耕 可 以 正确 工作 。 我 们 需要 魏 
痰 两 个 工具 : 一 个 是 lspci， 这 个 工具 用 来 运行 在 目标 系统 上 ， 奏 看 便 盘 
设备 在 PCI 总 线 上 的 位 置 ， 包 括 设 备 所 在 的 总 线 、 设 备 扎 等 ， 这 个 工具 
在 软件 包 pciutils 中 ; 另外 一 个 是 coreutils 中 的 工具 cat， 其 已 经 编 详 并 且 
安 少 在 /vita/sysroot 下 了， 我 们 将 其 直接 复制 到 initramfs 即 可 。 


我 们 首先 编译 安装 lspci: 


vita@balisheng:/vita/builds tar 、\ 
xvf .,./source/pciutils-=-3.1.10 .tar,xz 
vita@balisheng:/vita/build/pciutils-3.1.10$ make PREFIX=/USr NA 
2LIB=noO SHARED=yYes PCI COMPRESSED IDS=0 all 
vita@baisheng:/vita/build/pciutils-3.1.108 make PREFIX=/USsSr NA 
2LIB=no SHARED=yYes PCI COMPRESSED IDS=0 lnstall 


将 lspci 及 其 依赖 的 库 安 装 到 initramfs， 命 令 如 下 : 


vita@baisheng:/vitas ldd sysroot/usr/sbin/lspci 
IIDBCL B03 => vitarsveroot /VoliD/ TIDDCi 03 
libc.80.6 => /vita/sysroot/1l1ib/libc.80.6 
vita@baisheng:/vitas ldd sysroot/usr/lib/libpci.so.3 
libresolv.so.2 => /vita/sysroot/lib/libresolv.so.2 


libc.s80.6 =» /vita/svysroot/1ib/libc.s0.6 


vita@baisheng:/vitas$ ldd sysroot/lib/libresolv.so.2 
TID. BD. By /VItA/DVELOOL /LIT LIDG. BG. 


vita@baisheng:/vitas cp sysroot/usr/sbin/lspci initramfs/bin/ 

vita@baisheng:/vitas cp -d sysroot/usr/lib/libpci.so.3* \ 
initramfs/l1ib/ 

vita@baisheng:/vitas$ cp -d sysroot/lib/libresolv* initramfs/l1ib/ 


lspci 将 依次 答 试 通过 sysfs 文 件 系 统 、proc 文 件 系 统 以 及 直接 访问 站 
口 的 方式 列 出 PCI 总 线 上 的 设备 。 为 了 便于 人 们 理解 ， 社 区 中 维护 了 一 
个 pci 数 据 库 pci.ids， 访 数据 库 中 记录 了 ID 到 设备 信息 的 映射 。 当 lspci 碍 
找到 设备 ID 时 ， 其 使 用 设备 ID 到 pci.ids 中 去 匹配 设备 信息 。 因 此 除了 安 
疾 lspci 及 依赖 的 库 外 ， 我 们 还 需要 安 状 pci 数 据 库 pci.ids，pci.ids 已 经 被 
包含 在 软件 包 pciutils 中 ， 并 且 在 安 疙 lspci 时 已 经 安装 到 目标 系统 的 根 文 
件 系统 下 ， 我 们 将 其 复制 到 initramfs 中 。 

vita@baisheng:/vita$ mkdir -p initramfs/usr/share 


vita@balsheng:/vitas cp sysroot/usr/share/pci.ids 
initramfs/usr/sharel/ 


coreutils 中 的 cat 己 经 编译 并 且 和 安装 在 /vita/sysroot 下 了， 我 们 直接 复 
制 到 initramfs 即 可 。 


vita@baisheng:/vitas$ ldd sysroot/usr/bin/cat 
li1bc,.80.6 => /vita/svsroot/lib/libc.s8o.6 
vita@baisheng:/vitas cp sysroot/usr/bin/cat initramfs/pbin/ 


使 用 文 持 NETLINK 和 inotity 的 内 核 以 及 新 的 initramfs 更 新 vita 系 统 ， 
重启 后 运行 lspci， 运 行 结果 如 网 4-25 所 示 。 根 据 lspci 的 输出 可 见 ， 
SATA 控 制 器 挂 在 总 线 号 为 0x00 的 PCI 总 线 上 ， 设 备 号 为 0x0d。 


11.10 [正在 运行 ] - Oracle VM VirtualBox 


Switching to clocksource tsc 


bash—4.2# lspci 
QQ:00.90 Host bridoge: Intel Corporation 440F*% 一 B2441iFx PMC [Natomal] (rewv O22) 
:B10 TISh bridoge: Intel Corporation B23713B PIlIlx3 TISh [Natoma-Triton 11] 
‘Ql1.1 IDE interface: lIntel torporation Be37r1ABAEBAMB FIlX4 IDE (rew OQ1) 
:O20 UofA compatible controller: InnoTek Sustemberatung GmbH VirtualBox Graphi 
Adapter 
:03.0 Ethernet controller: Intel Corporation Bai4OQENM Gigabit Ethernet Controll 
【EU Qe) 
:QB 3ystem peripheral: InnoTek syustemberatung GmbH VirtualBox Guest Service 
OO Multimedia audio controller;: Intel Corporation B82Z801AA fC’ 37 Audio Contr 
(rew Qi1) 
. 心 Us 了 B controller: fpple Inc. KeuyuLargo Intrepid Us 
.0 Bridge: Intel Corporation B37r1ABAEBAMB Pllx4 hbFI (rev O86) 
:QB 3TA controller: lIntel] Corporation BBOIHMAHEM 0 ICHBM.AICHSM-EDY 3ATA Cont 
roller [AHCI mode] (rev Oe-)} 


PCI _SUBSYS_ ID= QO00: 000 
FCIT_ SLOT_NAME=O000:00:04d.0 
DDALINAS=pCi :v0008086d0000023s v0000000s100000000pc91lsco6 i101 


全 一 十 .< 站 _ 
时 加 卢 忠 自 休 | 浓 园 右 ctrl | 














图 4-25 硬盘 控制 器 的 ueveht 中 的 环境 变量 


根据 总线 号 和 设备 号 束 可 以 确定 SATA 控 制 笑 在 sysfs 文 件 系 统 中 的 


路 径 。 我 们 使 用 命令 cat 将 uevent 中 的 相关 变量 读 出 ， 根 据 输出 结果 可 
见 ， 变 量 MODALIAS 的 值 为 "pci:v000080 
86d00002829sv00000000sd00000000bc01sc06i01"。 我 们 使 用 这 个 
MODALIAS 的 值 加 载 模块 ， 如 图 4-26 所 示 。 


a 11.10 [正在 运行 ] - Oracle VM VirtualBox 


bash 4 .2 cat sus devices/pcid000N :O00000%: O00 :Od. Ouevent 
PCI_ CLASS-= 
PCI ID=8086: 


i 2 
hbash—4.2H moidprobe pei :vO000B0R6A00007Z87295U00000000s 100000000bcOlscO6idl 
i 1E] 刘 WW 全 全 尼 吧 说 长 工 入 耻 口 工 全 可 
ahci O00:00:0d.0: AHCIT O001.0100 32 slots 1 ports 3 Gbps @x1 impl 3ATA mode 
: flags: bi4bit ncgy stag only ccc 


: 3fTA max UDMAA133 abar mB13eQOxf OBOPOO0 port Oxf OBOG1ION0 irg 21 

: NTA link up 3.0 Gbhbps (ostatus 123 ssControl 300) 

‘QO: ATA-6: VBO* HARDDISKE, 1.0, max UPMA.133 

0 | i | i i NECU Tepth 了 412321 

.00;: conf igured for UDMAX133 

EC 一 有 CCESS TA UBOX HARDDISK 1. PQ: OO ANMSI: 5 
:O00:0: [sda] i16777r216 Sice-byute logical blocks: (8.58 GP/8.00 GiB} 

‘00: [sdal Write Protect 1s off 

:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn’t support DpPO 





国 访 字 曾 入 | 合 较 右 ctr | 

















图 4-26 通过 环境 变量 MODALIAS 加 载 驱 动 


根据 输出 的 信息 ， 我 们 清楚 地 看 到 ， 使 用 模块 的 别名 ， 模 块 也 补正 
确 加 载 『， 说 明 modules.alias.bin 文 件 工 作 正 常 。 事 实 上 ， 通 过 文件 
modules.alias.bin 中 的 别名 和 MODALIAS 的 对 应 关系，modprobe 将 如 下 


人 人 
合 令 : 


modprobe pci:v00008086d00002829sv00000000sd00000000bc0lsc061i01 


转换 为 了 : 


modprobe ahci 


4.6.8 ”启动 udevd 和 模拟 热 插 拔 


现在 对 于 自动 加 载 硬 盘 控制 器 驱动 来 说 ， 是 万 事 俱 备 ， 只 欠 东 风 
了 ， 让 我 们 来 扣 啊 扳机 。 修 改 init， 在 其 中 局 动 udevd， 并 使 用 udevadm 
对 冷 插 拔 设备 模拟 热 插 拔 。 另 外 ，udevd 需 要 保存 某 些 运行 时 的 信息 ， 
因此 ， 我 们 需要 建立 run 目 录 : 


vita@baisheng:/vitas mkdir initramfs/run 


因为 这 个 目录 也 是 你 和 存 运行 时 信息 的 ， 天 机 后 不 再 需要 保存 ， 因 此 
我 们 也 使 用 相对 蜗 效 的 基于 内 存 的 文件 系统 。 修 改 后 的 init 文 件 如 下 : 


/vita/initramfs/init 


#!/bin/bash 

echo "Hello Linux!™" 

export PATH=/usr/sbin:/usr/bin:/sbin:/bin 
mount -nn -t devtmpfs udev /dev 
mount - -t proc proc /proc 
mount -n -t sysfs sysfs /sys 
mount -n -t ramfs ramfs /run 
udevd --daemon 

udevadm trijgger --action=add 
udevadm settle 

exec /bin/bash 


init 局 动 了 udev 的 服务 进程 udevd， 然 后 使 用 命令 udevadm 通 历 Sysfs 


中 的 设备 ， 回 这 些 设备 在 sysfs 文 件 系统 中 的 文件 uevent 与 入 "add" 字 符 
串 ， 请 求 内 核 重新 发 送 KOBJ_ADD 事 件 ， 相 当 于 模拟 了 一 次 热 插 拔 。 


udevd 收 到 便 盘 控制 硕 的 uevent 后 ， 将 加 载 硬盘 控制 右 张 动 ， 并 创建 
设备 节点 。 当 然 devtmpfs 也 会 创建 设备 节点 ， 但 古 udevd 与 devtmpfs 并 不 
矛盾 ，udevd 可 以 在 devtmpfs 上 进行 用 户 空 间 的 各 种 修饰 。 


命令 "udevadm settle" 的 目的 是 等 竺 devd 处 理 完 内 核 向 用 户 空间 发 
送 的 uevent 后 再 继续 癌 下 执行 。 人 否则 ， 如 采 这 里 不 进行 等 待 ， 后 续 的 操 
作 有 可 能 及 生 错 误 。 举 个 例 于 ， 假 如 在 udevd 正 在 调用 modprobe 加 载 便 
盘 驱 动 模 块 时 ，init 后 续 的 脚本 可 能 已 经 并 行 地 开始 挂 载 根 文件 系统 
了 ， 但 是 此 时 设备 尚未 被 驱动 ， 更 别提 设备 节点 了 ， 所 以 挂 载 将 会 
败 。 

重新 压缩 initramfs， 更 新 到 vita 系 统 ， 重 启 系统 。 我 们 来 检查 一 下 硬 


盘 控 制 秦 是 售 正 确 加 载 ， 如 图 4-27 所 示 。 通 过 lsmod 和 得 看 设备 万 氮 ， 
显然 便 盘 控制 硕 豫 动 已 经 成 功 目 动 加 载 。 


11.10 [正在 运行 ] - Oracle VM VirtualBox 
scsi 1:0:0:0: CD-ROM UBOX CPP-ROM 1.90 PH: OQ ANST: 5 
atad: ATA link up 3.0 Ghbps (wotatus 123 stControl 300) 
atad. : TA-6: UBO% HARDDISKE, i100, max UpMA.A133 
ata3d .OO: lerrrelbe sectors, multi ic2cB: LBAA4G MCA tdepth 了 了 17 汪 z 
atad. : Conf igured for UpDMA.,x133 
scsi 2Z:0:0:0: Direct-Access 站 Th UBO% HARDDISK 1.90 POU: OQ ANSI: 5 
| :O00: [lsdal] 16r7r216 Slabuyute logical blocks: (BB.58 GBA/B .00 GiB) 
:QO;: [sdal] Write Frotect is off 


:O: [sda] Write cache: enabled, read cache: enabled, doesn’ tt support DPO 


sda: sdal sdae 
Ed :0:0:0: [sda] fttached Stal disk 
bash: cannot set terminal process group (1): Inappropriate ioctl] for device 
LE 
bash-4.z# tsc: Refined TSC clocksource calibration: 2382 .431 MHz 
Switching to clocksource tsc 


bash—4.2# lsmod 

Modu le dle 
ahci 17951 
libahci 17049 
ata piix 11477 
bash—4.2# ls dewvw/sdas 
deusda Adew/sdal devy/sdac 
bash-—4.2# 





OP PANGDS | 


图 4-27 查看 加 载 模 块 以 及 建立 的 硬盘 设备 节点 


4.7” 挂 城 并 切换 到 根 文 件 系 统 


截止 到 目前 ， 系 统一 直 在 使 用 initramfs 作 为 临时 的 根 文件 系统 ， 
initramfs 的 主要 目的 之 一 就 是 辅助 系统 顺利 地 切换 到 真正 的 根 文件 系 
统 。 既 然 现 在 已 经 正确 的 驱动 了 价 盘 ， 那 么 接 下 来 ， 我 们 就 切换 到 人 硬盘 
上 的 真正 的 根 文 件 系统 。 


4.7.1 ” 挂 载 根 文 件 系 统 


首先 我 们 需要 确定 根 文件 系统 所 在 的 物理 介质 。 以 存储 项 为 便 盘 为 
例 ， 需 要 确定 文件 系统 储存 在 硬盘 的 哪个 分 区 。 内 核 在 引导 时 已 经 将 文 
件 系统 所 在 的 介质 等 相关 参数 从 GRUB 复 制 到 了 内 核 中 ， 所 以 我 们 现在 
可 以 通过 内 核 获取 这 个 参数 。 谈 到 用 户 空 间 与 内 核 的 通信 ， 读 者 一 定 想 
到 了 proc 与 sysfs 文 件 系统 ， 接 下 来 我 们 在 init 程 序 中 通过 proc 文 件 系 统 取 
得 文件 系统 所 在 的 介质 。 


在 GRUB 的 cmdline 中 ， 我 们 使 用 了 "root=/devwsda2" 指 定 文 件 系统 所 
在 的 介质 ， 因 此 我 们 堆 取 '"root=" 后 面 的 值 ， 将 其 保存 在 变量 ROOT 中 ， 
供 后 面 挂 载 使 用 。 


一 般 在 准备 挂 载 文 件 系 统 之 前 ， 将 使 用 fsck 检 查 文件 系统 。 如 朱文 
件 系统 中 存在 错误 ， 则 试图 修复 。 这 个 过 程 要 求 文件 系统 没有 衫 挂 载 或 


者 只 能 以 只 读 方 式 挂 载 。 因 此 ， 一 般 自 完 以 只 读 方 式 (ro) 挂 载 根 文 件 系 
统 ， 然 后 执行 fck 检 奉 修 复 后 ， 再 重新 以 读 写 方式 (rw) 挂 载 。 这 也 和 是 
大 家 看 到 的 在 GRUB 的 配置 文件 grub.cfg 中 ， 内 核 的 命令 行 参数 要 指定 ro 
的 原因 。 但 是 也 不 排除 茶 些 系统 在 司 动 时 略 过 fsck 的 步 又， 下 接 将 文件 
系统 以 该 与 方式 挂 载 。 因 此 ， 在 挂 载 前 ， 我 们 首 和 多 查看 内 核 命 令 行 的 这 
个 参数 。 如 要 没有 指定 ， 寺 认 我 们 以 只 读 方 式 挂 载 。 


对 于 文件 系统 的 类 型 ， 可 以 通过 udev 来 获取 ， 但 是 这 里 我 们 偷 个 
懒 ， 直 接 让 mount 来 猜测 。 在 init 中 增加 如 下 使 用 黑体 标识 的 脚本 将 真正 
的 根 文件 系统 挂 载 到 /rroot 目 录 下 ， 当 然 ， 不 一 定 是 挂 载 到 /root 目 录 下 ， 
也 可 以 使 用 除了 "“/” 外 的 任何 目录 作为 挂 载 点 。 


/vita/initramfs/init 


#!/bin/bash 

echo "Hello Linux!" 

export PATH=/usr/sbin:/usr/bin:/sbin:/bin 
export ROOTMNT=/root 

export ROFLAG=-r 

mount -nm -t devtmpfs udev /dev 
mount -nN -=t proc proc /DPIOC 
mount -n -t sysfs sysfs /sys 
mount -n -t ramfs ramfs /run 
udevd --daemon 

udevadm trigger --action=add 
udevadm settle 


for x in S$(cat /proc/cmdline); do 
Case SX 1in 
root=*) 
ROOT=${x#root=)} 


一。 电 
FF 


ro) 

ROFLAG=-r 
rw) 

ROFLAG=-W 
避 呈 如 已 


done 
mount S${ROFLAG} S${ROOT} ${ROOTMNT} 


exec /bin/,/bash 


使 用 修改 的 initramfs 重 新 启动 vita 系 统 ， 查 看 mount 的 输出 和 /root 目 
录 下 的 内 容 ， 确 定 真 正 的 根 文件 系统 是 否 已 经 挂 载 ， 如 图 4-28 所 示 。 根 
据 mount 命 令 的 输出 可 见 ， 分 区 "wdev/sda2" 确 实 被 挂 载 到 了 "root" 目录 
下 ， 该 目录 下 也 不 再 是 个 空 目 录 了 ， 是 根 文 件 系统 的 内 容 。 
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sd 2 站: [sdal] Write Protect is off 

sd 2Z:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn’t support DFO 
or FUA 

sda: sdalil sdac 

sd 2Z:0:0:0: [sdal] Attached SCSI disk 

[i i 《Sazejy TIHFEUO，FrECOwETU FEUUIPEU Dn reEaduom1lU 土 站 1ESUSHEmn 

开关 工 二 一 让 二 【全 下 二 cz :WPrItE acCess Will be Enabled during reEecowerU 

ExT4-—fs tsda2}: recovery complete 

ExT4-fs (sdac};: mounted filesyustem with ordered data mode. Opts;: (null) 
1 
hash: no job control in this shell 

hash—4 .2# tsc: Refined Tat clocksource calibration: £3062 .461 MHz 

Switching to clocksource tsc 


总 二 hh 一 二. mount 

rootfs on ”十 UPE rootfs (Crw) 

idew on wdewv tuyupe devtmpfs (trurelatime,mode=Qr55) 

proc on Aproc type proc (rw,relatime) 

suUsfs on sys type syusfs (rw,relatime) 

ramfs on Arun tuyupe ramfs (rw,relatime) 

deEu/sdac on zroot type ext4 (ro,relatime,data=ordered) 
bash—d .#8 

hasho4d4.2# ls root. 

hin boot etc lib proc rootfs.tgz Shinm sys Usr var 
1 
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图 4-28 上 自动 挂 载 根 文件 系统 成 功 


4.7.2 ”切换 到 根 文件 系统 


真正 的 根 文件 系统 已 经 被 挂 载 了， 我 们 接 下 来 就 要 切换 到 真正 的 根 
文件 系统 。 

initramfs 中 的 这 个 init 脚 本 也 完成 了 它 的 历史 使 命 ， 访 退出 舞台 本。 
系统 的 第 一 个 进程 应 该 使 用 根 文件 系统 中 的 一 个 程序 了 。 无 论 是 
SystemV 还 是 systemd， 都 会 提供 一 个 init 程 序 ， 通 常 这 个 程序 都 是 使 用 
二 进 制 格 式 的 。 但 是 这 里 ， 我 们 为 了 不 把 事情 捅 得 太 复兴， 真正 的 用 户 
空间 的 init 程 序 依然 使 用 shell 脚 本 。 一 般 而 言 ，init 存 储 在 /sbin 目 录 下 ， 
所 以 需要 在 根 文件 系统 中 建立 /sbin 目 录 。 


vita@baisheng:/vita/rootfss mkdir sbin 
init 脚 本 简单 的 执行 一 个 交互 式 的 bash。 
/vita/rootfs/sbin/init: 


#1!/bin/bash 
exec /bin/bash 


最 后 注意 将 该 程序 加 上 可 执行 权限 


/vita/rootfs/sbins chmod a+x linit 


根 文件 系统 准备 好 后 ， 接 下 来 开始 同根 文件 系统 切换 ， 步 又 如 下 : 
1) 删除 rootfs 文 件 系 统 中 不 再 需要 的 内 容 ， 释 放 内 存 空 间 。 


现在 挂 载 在 %/* 下 的 rootfs 中 的 内 容 古 initramfs 解 压 来 的 ， 在 我 们 准备 
把 想 盘 文件 系统 挂 载 到 “/” 前 ， 需 要 删除 rootfs 中 的 内 容 ， 以 释放 其 占用 
的 内 存 空 间 。 但 是 ， 在 删除 rootfs 前 ， 我 们 需要 : 


仿 仓 正 正在 运行 的 进程 ， 这 里 融 定 udevd: 


仿 将 /dev、/run、/proc 和 /sys 目 录 移 动 到 真正 的 文件 系统 上 。 因 此 ， 
需要 在 根 文 件 系统 上 建立 如 下 目录 : 


vita@baisheng:/vita/rootfss mkdir sys proc Qev run 
2) 将 根 文件 系统 从 "/root" 移 动 “/”*” 下 。 


3) 更 改进 程 的 文件 系统 namespace， 使 其 指 加 真正 的 根 文件 系统 。 
因为 当前 进程 就 是 进程 1， 而 后 续 进 程 都 是 从 进程 1 复制 的 ， 所 以 后 续 进 
程 的 文件 系统 的 namespace 目 然 束 是 使 用 的 真正 的 根 文件 系统 。 


4) 运行 真正 的 文件 系统 中 的 "init" 程 序 。 


这 里 提 一 个 问题 ， 前 面 的 几 个 动作 还 可 以 用 脚本 继续 实现 吗 ? 单个 


动作 本 号 没 有 问题 ， 但 是 不 知道 谈 者 留意 到 没有 ， 一 旦 步骤 1) 执行 

了 ，rootfs 中 就 没有 内 容 了 ， 因 此 后 面 步 又 中 使 用 的 命令 已 经 不 在 了 ， 

被 删除 了 ， 何 谈 步 骤 2) 和 步骤 3) ? 因此 ， 这 里 我 们 使 用 一 个 小 技巧 ， 
将 上 面 的 步骤 都 封装 到 一 个 二 进 制程 序 中 ， 将 这 个 程序 加 载 进 内 存 后 ， 
我 们 再 删除 rootfs 中 的 内 容 ， 如 此 一 来 ， 步 又 2) 和 步骤 3) 都 得 以 顺利 
完成 。 这 个 程序 源码 如 下 : 


switch root.c: 


#include <errno.h> 
#include <dirent.h> 
#include <sys/stat.h> 
#include <stdio.h> 
#include <stdlib.h> 
#include <sys/mount.h> 
#1IneLude <Efcntlehs 
#include <unistd.h> 


int delete dir (Char *directory); 


void delete (char *what) 
{ 
if (unlink (what)) { 
if (errno == EISDIR) { 
if (!delete dir(what)) 
rmdir (what) ; 


} 


int delete dirl(char *directory) 
DILR: *oir: 
struct dirent *d; 
二 CE Stat BPELls BLEZs 


四 


char path [PATH MAX]; 


if (lstat (directory, &st1)) 
return errno; 


if (! (dir = opendir (directory) ) ) 
return errno; 


while ((d = readdir(dir))) { 
Hn: Wl ss Ww 
if (d->d namel[l0] == '.' && 
(d=sd namel1l)] ss \Or || 
(d->d name[i] == ',' && d->d name[2] == '\0°'))) 
continue; 


sprintf (path, "%s/%s", directory, d->d name); 
lstat (path, &st2).; 
/* do not recurse down mountpoint avoiding del realroot */ 
if (st2.8t dev != stl1.8t dev) 
continue,; 


delete (path),， 


} 


closedir (dir).， 
return 0; 


mainl(int argc, char *argv[]) 
int console fd; 


/* change to the new root directory */ 
chaiz (argv[1L]) ; 


/* delete rootfs contents */ 
delete dir("/'"),; 


/* overmount the root */ 
moOunt (Tt.", mw/ NULL, MS MOVE, NULL).; 


/* chroot, chdir */ 
Chroot tt LY 
chdir("/"). 


/* open /dev/console */ 

console fd = open("/dev/console'", O RDWR); 
dup2 (console fd, 0); 

dup2 (console fd, 1); 

dup2 (console fd, 2); 

close (console fd); 


/* spawn init */ 
execlp(largv[2], argv[2], NULL); 


return 0:; 


| 


Makefile 文 件 如 下 : 


switch root; switch root,ce:; 


clean: 
rm =Tf *,o 
rm -ft switch root 


Switch_root 本 身 的 逻辑 比较 简单 ， 基 本 就 是 执行 我 们 上 面 的 步骤 
1) ~ 步骤 4) ， 首 先 切 换 到 新 的 文件 系统 ， 因 此 后 面 的 “.” 就 是 在 新 文件 
系统 中 ， 然 后 使 用 chroot 命 令 ， 将 “.” 作 为 新 的 根 文件 系统 ， 完 成 进程 的 
文件 系统 namespace 的 切换 ， 并 重 定 同 了 stdio、stdout 和 stderr。 其 中 有 一 
处 需要 特别 注意 ， 融 是 在 执行 删除 前 ， 需 要 做 一 个 小 的 判断 ， 以 免 把 挂 
载 在 ${ROOTMNT} 下 的 真正 的 文件 系统 也 删除 了 。 


编 诺 后 ， 将 Switch_root 复 制 到 initramfs: 


vita@baisheng:/vita/build/switch roots$ cp Switch root \ 
/vita/initramfs/bin)/ 


修改 initramfs 中 的 init 脚 本 如 下 : 


/vita/initramfs/init: 


#!/bin/bash 

echo "Hello Linux!" 

export PATH=/usr/sbin: /usr/bin:/sbin:/bin 
exXport ROOTMNT=/root 

eXport ROFLAG=-Ir 

mount - -t devtmpfs udev /dev 
mount -nn -t proc proc /proc 
mount -n -t sysfs sysfs /sys 
mount -nn -七 ramfs ramfs /run 
udevd --daemon 

udevadm trigger --action=add 
udevadm settle 


for x in sl(cat /proc/cmdline); do 
Case SX in 
root=*) 
ROOT=$ {x#root=} 


时。 亚 
F Ff 


roO) 

ROFLAG=-r 
WwW) 

ROFLAG=-W 
Sac 


mount ${ROFLAG} SROOT SROOTMNT } 


# Stop udevd 

udevadm control --exit 

# Move to 七 De real fillesystem 

mount -n --move /dev ${ROOTMNT} /dev 
mount -n --move /run ${ROOTMNT!} /run 
mount -n --move /proc ${ROOTMNT} /proc 
mount -n --move /sys ${ROOTMNT! /sys 


switch root ${ROOTMNT} /sbin/init 


最 后 ， 为 了 验证 是 否 已 经 切换 到 根 文 件 系统 了 上， 我 们 在 rootfs 中 安 
装 两 个 程序 cat 和 和 1s: 


vita@baisheng:/vitas cp sysroot/usr/bin/cat rootfs/bin)/ 
vita@baisheng:/vitas cp sysroot/usr/bin/ls rootfs/bin)/ 


用 修改 过 的 根 文件 系统 和 initramfs 更 新 vita 系 统 ， 然 后 重新 局 动 vita 
系统 。 使 用 命令 cat 打 印 文 件 /procmounts 的 内 容 ， 如 图 4-29 所 示 。 
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conf igured for UDMh7 ITIL33 

‘QO: Direct-Access | UBOX HARDDISKH 1.9 PO: QO ANSI: 5 

:O: [sdal] i16777216 Siz2-buyute logical blocks: (8.58 GB/B8.00 GiB) 

OO: [sdaj] Write Protect is off 

:0: [sda] Write cache: enabled, read cache: enabled, doezn’ t support DPO 


: 总: [sdal] fttached stal disk 
ExmT4-fs tsdaa}: mounted filesyustem with ordered data mode. Opts: tnull) 
: Ref ined TSC clocksource calibration: 2380.562 MHz 


cannot set terminal process Group (1): Inappropriate ioctl1 for dewvice 
mo job control in this shell 


ramfs rw,relatime Oo 
| 


ls ~ 
boot dew lib proc rootfs.tyz run sbin Us 
gh ee 





下 自生 | 全国 右 ctrl | 
图 4-29 成 功 切换 到 根 文件 系统 
根据 /procmounts 的 输出 可 见 ， 存 放 根 文件 系统 的 分 区 "dewsda2" 已 


经 挂 载 到 了 “下 。 在 这 里 ， 我 们 也 看 到 ，rootfs 还 是 作为 整个 虚拟 文件 
系统 的 根 存 在 的 。 


第 5 章 ” 从 内 核 衬 间 到 用 户 空 间 


前 面 ， 我 们 从 无 到 有 ， 纺 详 了 和 内核， 构建 了 initramfs 和 一 个 基本 的 
根 文 件 系统 ， 成 功 司 动 了 用 户 空 间 的 第 一 个 进程 。 虽 然 我 们 只 是 过 出 了 
一 小 步 ， 但 是 这 是 关键 的 一 步 。 在 此 基础 上 ， 我 们 可 以 放 开 手脚 ， 去 探 
系 曾 经 的 避 不 可 及 。 但 是 ， 我 们 也 才刚 刚 破 冰 ， 学 而 不 思 则 头 ， 因 此 ， 
在 继续 构建 一 个 完整 的 操作 系统 之 前 ， 我 们 先 来 更 深入 的 探索 一 下 这 一 
切 征 如 何人 太 生 的 。 


首 经 不止 一 次 ， 笔 者 在 各 个 拉 术 文章 、 书 籍 、 甚 至 顶 兴 融 校 的 讲义 
中 ， 虱 看 到 类 似 的 论述 :， 内核 自 先进 入 实 模式 ， 然 后 从 实 模 式 跳 入 你 扩 
模式 ， 事 实 末 真如 此 吗 ? 在 这 一 草 中 ， 我 们 首先 从 Linux 操 作 系统 的 加 
载 谈 起 。 


对 于 普通 程序 ， 它 们 运行 在 操作 系统 已 经 为 其 准备 好 的 环境 中 ， 操 
作 系 统 则 没有 这 人 么 蔷 运 ， 其 运行 在 裸 机 上 。 操 作 系 统 需 要 在 棵 机 上 和 目 己 
引导 目 己 ， 而 且 还 要 为 运行 进程 挫 建 好 环境 。 因 此 ， 本 草 的 5.2 和 5.3 
琅 将 讨论 内 核 是 如 何 目 解 压 以 及 如 何 初始 化 的 。 


操作 系统 最 终 的 目的 之 一 是 承载 进程 。 因 此 ， 在 本 章 的 最 后 ， 我 们 
讨论 了 进程 的 加 载 和 运行 。 提 及 进程 的 加 载 和 运行 ， 我 们 几乎 将 所 有 的 
关注 都 放 在 了 内 核 上 ， 却 往往 忽略 了 另外 一 个 为 进程 辅 以 建立 运行 环境 


的 重要 角色 : 动态 链接 郁 。 在 进程 加 载 中 ， 相 当 一 部 分 烦琐 而 义 重 要 的 
工作 由 动态 链接 豆 完 成 。 因 此 ， 除 了 讨论 进程 在 内 核 中 的 加 载 过 程 外 ， 
我 们 也 深入 探讨 了 进程 在 用 户 空 间 的 加 载 和 链接 过 程 。 


5.1 Linux 操 作 系 统 加 载 


PC 上 电 或 复位 后 ， 处 理 器 跳 转 到 BIOS， 开 始 执行 BIOS。BIOS 首 先 
进行 加 电 自 检 ， 初 始 化 相关 人 硬件， 然后 加 载 MBR 中 的 程序 到 内 存 0x7c00 
处 并 跳 转 到 该 地 址 处 ， 接 着 由 MBR 中 的 程序 完成 操作 系统 的 加 载 工 
作 。 通 常 ，MBR 中 的 程序 也 被 称 为 Bootloader。 当 然 ， 鉴 于 现代 操作 系 
统 的 复杂 性 ，Bootloader 已 远 远 不 止 一 个 忆 区 大 小 。 这 一 节 ， 我 们 就 以 
一 个 具体 的 Bootloader 一 一 GRUB 为 例 ， 探 讨 操作 系统 的 加 载 过 程 。 为 
简单 起 见 ， 我 们 只 讨论 典型 的 从 硬盘 加 载 操 作 系统 的 过 程 ， 所 以 后 续 的 
讨论 全 部 是 针对 从 硬盘 启动 的 情况 。 





PC 上 硬盘 的 传统 分 区 方式 是 MBR 分 区 方案 。 但 是 MBR 最 大 能 表示 
的 分 区 大 小 为 2TB。 因 此 ， 随 着 硬盘 容量 的 不 断 扩 大 ， 为 了 突破 MBR 分 
区 方式 的 一 些 限制 ，20 世 纪 90 年 代 Intel 提 出 了 GPT 分 区 方案 。 对 于 不 同 
的 分 区 方式 ， 加 载 操作 系统 的 方式 还 是 有 些许 不 同 的 。 也 是 为 了 简单 起 
见 ， 我 们 结合 现在 依然 广泛 使 用 的 传统 的 MBR 分 区 方案 进行 讨论 。 


5.1.1 _ GRUB 映像 构成 


对 于 仪 有 512 字 节 大 小 的 MBR， 叉 要 留 给 分 区 表 64 字 闻 ， 在 这 么 小 
的 一 个 空间 ， 己 经 很 难 容纳 加 载 一 个 现代 操作 系统 的 代码 。 于 是 GRUB 


采取 了 分 阶段 的 策略 ，MBR 中 仪 存放 GRUB 的 第 一 阶段 的 代码 ，MBR 
中 的 代码 负责 把 GRUB 的 其 余部 分 载 入 内 存 。 


但 是 GRUB 分 成 几 段 合适 呢 ? 要 回答 这 个 问题 我 们 还 得 从 DOS 谈 


起 。 


DOS 的 系统 映像 是 不 能 路 柱 面 存放 的 ， 所 以 在 DOS 时 代 ， 磁 盘 的 第 
一 个 分 区 索性 并 没有 紧 接 在 MBR 的 后 面 ， 而 是 直接 从 下 一 个 柱 面 的 边 
界 开 始 。 而 且 ， 按 照 柱 面 对 齐 ， 对 系统 的 性 能 有 很 大 好 处 ， 这 对 于 现代 
操作 系统 同样 适用 。 于 是 ， 在 MBR 与 第 一 个 分 区 之 间 ， 就 出 现 了 一 块 
空 亲 区 域 。 从 那 时 起 ， 这 种 分 区 方式 成 为 了 一 个 约定 俗 成 ， 基 本 上 上 所 有 
的 分 区 工具 都 把 这 种 分 区 方式 保留 了 下 来 。 如 采 人 硬盘 是 MBR 分 区 方 
案 ， 用 分 区 工具 fdqisk 束 可 以 看 到 这 一 点 ， 以 笔者 的 机 器 为 例 : 


root@baisheng:~# fdisk -1 


Disk /dev/sda: 500.1 GB, 500107862016 bytes 
255 heads, 63 sectors/track, 60801 cylinders, total 976773168 ... 


Device Boot Start End Blocks Id System 


/dev/sdal 63 L048:L2319 52436128+ 83 Linux 
/dev/sda2 104872320 36.779 41953747+ 83 Linux 


根据 fdisk 的 输出 可 见 ， 每 个 人 磁道 划分 为 63 个 局 区 。 便 盘 的 第 一 个 分 
区 起 始 于 第 63 个 扇 区 〈 从 0 开始 计数 ) 。 也 就 是 说 ， 对 于 第 0 个 磁道 ， 除 
了 MBR 占 据 的 一 个 分 区 ， 其 余 62 个 分 区 是 空闲 的 。 


于 是 ，GRUB 的 开 友 人 员 束 打算 把 GRUB"“ 杉 入 ”到 这 个 空 几 区 域 ， 
这 样 做 的 好 处 就 是 相对 来 说 比较 安全 。 因 为 某 些 文件 系统 的 一 些 特性 或 
者 一 些 修 复 文件 系统 的 操作 ， 有 可 能 导致 文件 系统 中 的 文件 所 在 的 耐 区 
发 生 改 变 。 因 此 ， 单 纯 依 靠 刷 区 定位 文件 是 有 一 定 的 风险 的 。 而 对 于 
GRUB 来 说 ， 在 其 初始 阶段 ， 由 于 尚未 加 载 文 件 系 统 的 驱动 ， 因 此 ， 
恰恰 需要 通过 BIOS 以 刷 区 的 方式 访问 GRUB 的 后 续 的 阶段 。 但 是 ， 一 旦 
GRUB 肉 入 到 这 个 不 属于 任何 分 区 的 特殊 区 域 ， 则 将 不 再 受 文件 系统 的 
有 影响。 当然 将 GRUB 髓 入 到 这 个 区 域 也 不 是 必须 的 ， 但 是 因为 这 个 相对 
安全 的 原因 ，GRUB 的 开发 人 员 推 荐 将 GRUB 髓 入 到 这 个 区 域 。 


但 是 这 个 区 域 的 大 小 是 有 限 的 ， 通 常 ， 一 个 山 区 512 字 节 ， 一 个 柱 
面 最 多 包含 63 个 届 区 。 因 此 ， 除 去 MBR， 这 个 区 域 的 大 小 是 62 个 局 
区 ， 即 31KB。 因 此 ， 骨 入 到 这 里 的 GRUB 的 映像 最 大 不 能 超过 31KB。 
为 了 控制 舱 入 到 这 个 区 域 中 的 映像 的 尺寸 不 超过 31KB，GRUB 末 用 了 模 
块 化 的 设计 方案 。 


GRUB 在 和 铭 入 的 映像 中 包含 价 件 及 文件 系统 的 驱动 ， 因 此 ， 一 旦 构 
入 有 的 映像 载 入 内 和 存 ，GRUB 即 可 访问 文件 系统 。 其 他 柑 块 完全 可 以 存储 
在 文件 系统 上 ， 通 过 文件 系统 的 接口 访问 这 些 模 块 ， 避 开 了 因为 如 修复 
文件 系统 而 引起 文件 所 在 届 区 的 变化 而 市 来 的 风险 。 为 外 也 可 以 很 好 地 
控制 和 入 到 空 几 司 区 的 映像 的 尺寸 。 


由 上 述 内 容 可 知 ，GRUB 将 映像 分 为 三 个 部 分 :1 MBR 中 的 


boot.img、 骨 入 空 用 局 区 的 core.img 以 及 存储 在 文件 系统 中 的 模块 。 这 三 
个 部 分 也 对 应 看 GRUB 执 行 的 三 个 阶段 。 在 MBR 分 区 模式 下 ， 以 家 入 方 
式 安 闭 的 GRUB 的 各 个 部 分 在 人 硬盘 上 的 分 布 如 图 5-1 所 示 。 


boot.img | 。 core.img modules | modules | 
(stage 1) (stage 2) (stage 3-1) (stage 3-2) 
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1 sector 62 sectors Partition 1 
(MBR,) 


图 5-1 在 MBR 分 区 模式 下 以 误 入 方式 安装 的 GRUB 


boot.img 以 及 core.img 分 别 以 谈 写 磁盘 而 区 的 方式 访问 ， 它 们 不 属于 
任何 一 个 便 丢 分 区 ， 所 以 不 会 党 到 文件 系统 的 影响 。 第 三 阶段 的 这 些 模 
块 是 存储 在 文件 系统 上 的 ， 虽 然 文件 所 在 的 局 区 可 能 会 变动 ， 但 是 
GRUB 不 再 通过 刷 区 访问 而 是 通过 文件 系统 访问 。 


1.MBR 了 映像 


boot.img 主 要 功能 是 将 core.img 中 的 第 一 个 而 区 载 入 内 存 。 为 什么 只 
是 加 载 core.img 的 第 一 个 而 区 而 不 是 加 载 整个 core.img 昵 ? 答案 还 是 因为 
那 可 怜 的 区 区 512 字 入 ， 除 去 64 字 节 的 分 区 域 表 信息 以 及 最 后 的 2 学 和 的 
引 守 标识 ， 还 要 给 BIOS 你 留 一 段 参 数 空间 ，boot.img 中 可 用 的 空间 已 经 
被 瓜分 得 所 剩 无 几 。 因 此 ， 索 性 bootimg 中 仅 记 录 core.img 的 第 一 个 而 区 
写 ， 并 仅 将 这 个 忆 区 气 对 应 的 而 区 中 的 内 容 加 载 入 内 存 ，core.img 其 余 
部 分 的 加 载 留 给 core.imng 的 第 一 个 而 区 的 代码 去 考虑 吧 。 


boot.img 对 应 的 源 文件 是 bootS， 其 中 保存 core.img 的 第 一 个 而 区 的 
位 置 如 下 : 


grub-2.00/grub-core/boot/i386/pc/boot.s: 


. = Start + GRUB BOOT MACHINE KERNEL SECTOR 
kernel sector: 
, ] Ong xs 必 


grub-2.00/include/grub/i386/pc/boot.h. 
#define GRUB BOOT MACHINE KERNEL SECIOR OXoC 


boot.S 中 标号 kernel_sector 所 在 处 ， 即 boot.img 中 仿 移 
GRUB_BOOT_MACHINE_KERNEL_SECTOR， 即 92 字 节 〈0x5c) 处 ， 
记录 的 束 是 core.img 第 一 个 而 区 在 硬盘 上 所 在 的 面 区 号 。 后 面 讨论 
GRUB 安 装 时 ， 我 们 会 看 到 ， 在 安装 GRUB 时 ，GRUB 的 安装 程序 将 根 
据 core.imng 的 第 一 个 而 区 占据 的 实际 硬盘 书 区 号 修改 这 里 。 事 实 上 ， 如 
采 GRUB 采 用 的 是 藤 入 模式 ， 那 么 这 里 的 恒 区 惑 应 该 是 1， 即 么 接 在 
MBR 后 面 的 一 个 而 区 。 


由 于 程序 大 小 被 限制 在 可 怜 的 一 个 山区 内 ， 不 能 奢望 在 这 么 小 的 程 
序 内 实现 人 硬盘 以 及 文件 系统 的 驱动 ， 所 以 ，boot.img 只 能 利用 BIOS 提 供 
的 中 断 问 量 为 0x13 的 基于 局 区 的 人 磁盘 读 写 服务 。 以 支持 LBA 模 式 的 硬盘 
为 例 ， 读 取 届 区 的 代码 如 下 : 


grub-2.00/grub-core/boot/i386/pc/boot.s: 


lba mode: 


mowl] kernel sector, ebx 
movDb SOXxX42, $ah 
1nt SOxl3 


/* boot kernel */ 
Jmp * (kernel address) 


boot.img 按 照 BIOS 服 务 的 要 求 ， 设 置 相应 的 寄存 帝 ， 调 用 BIOS 服 
务 。BIOS 人 负责 将 地 址 kernel_sector 处 指示 的 情 区 号 所 在 户 区 的 内 容 载 入 
内 存 。boot.img 了 最 后 把 恋 入 的 届 区 内 容 移动 到 符 写 kernel_address 处 指示 
的 地 址 ， 并 跳 转 到 那里 执行 。 符 号 kernel_address 处 的 值 为 宏 
GRUB_BOOT_MACHINE_KERNEL_ADDR， 如 下 代码 : 


grub-2.00/grub-core/boot/1i1386/pc/boot.s: 


kernel address: 
.word GRUB BOOT MACHINE KERNEL ADDR 


这 个 宏 的 值 是 0x8000， 也 就 是 说 ，GRUB 第 二 阶段 映像 被 移动 到 了 
这 里 ， 并 且 从 这 里 继续 执行 。 后 面 在 讨论 GRUB 局 动 时 ， 访 者 会 看 到 ， 
链接 器 给 core.img 的 最 初 512 字 节 分 配 的 地 址 ， 也 确实 是 从 0x8000 开 始 
的 。 


万 外 ， 访 者 并 不 会 在 poot.S$ 中 看 到 关于 分 区 雪 的 部 分 ， 因 为 在 安 搬 
GRUB 时 ， 安 搬 程 序 负 贡 将 分 区 表 与 到 boot.img 中 。 


2.GRUB 核 心 映像 


core.img 包 括 多 个 映像 和 模块 ， 以 从 便 稚 局 动 为 例 ，core.img 包 含 的 
内 容 如 图 5-2 所 示 。 








uncompressed 
一 
diskboot lzma_decom kernel.img biosdisk |part msdos | 
.ImMm9 press.Img .mod .mod 
人 
1 sector compressed 


图 5-2 core.img 构 成 示意 图 


图 5-2 中 diskboot.img 占 据 core.img 中 的 第 一 个 局 区 ， 它 束 是 boot.img 
加 载 的 core.img 的 所 谓 的 第 一 个 届 区 。diskboot.img 用 来 加 载 core.img 中 
除 diskboot.img 外 的 其 余部 分 ， 与 boot.S 的 实现 本 质 上 并 无 不 同 ， 也 是 借 
助 BIOS 的 中 断 服务 。 只 不 过 boot.img 加 载 一 个 扇 区 进入 内 存 ， 而 
diskboot.img 加 载 多 个 届 区 进入 内 存 而 已 。 


与 boot.img 关 似 ，diskboot.img 也 需要 知道 core.img 的 后 续 部 分 所 在 
的 局 区。 显然 ， 只 有 在 将 GRUB 安 少 到 做 盘 时 ， 才 能 知道 core.img 实 际 
所 占据 的 扇 区 。 因 此， 在 安装 时 ，GRUB 的 安装 程序 会 将 core.img 占 据 
的 局 区 号 写 入 diskboot.img 中 。 相 关 代 码 如 下 : 


grub-2.00/grub-core/boot/i386/pc/diskboot.s: 


.= BStart + 0x200 - GRUB BOOT MACHINE LIST SIZE 
LOCAL (first list): 
Blocklist default etart:; 


ong 2 0 
DIockI1ist deftauilt Ten: 
.Word DO 


blocklist default seg: 
.Word {GRUB BOOT MACHINE KERNEL SEG + 0X20| 


diskboot.img 的 最 后 12 字 节 记 有 录 的 是 一 个 blocklist， 每 个 blocklist 代 表 
一 个 连续 的 出 区 ， 其 对 应 的 C 语 言 的 结构 体 如 下 : 


grub-2.00/include/grub/offsets.h: 


struct grub pc bios boot blocklist 


| 
grub uint64 t start; 
grab urnti6 tt Ler 
grub uint1ié t segment, 
} _attribute _ ((packed)).; 


其 中 start 代 表 这 个 连续 的 而 区 的 起 始 局 区 ，len 表 示 届 区 的 数量 ， 
Segment 表示 届 区 加 载 到 内 存 的 段 地 址 。 


在 diskboot.S$ 中 ， 注 意 标 号 blocklist_default_seg 处 的 安 
GRUB_BOOT_MACHINE_KERNEL_SEG， 这 是 一 个 类 似 带 参数 的 宏 ， 
对 于 使 用 x86 架 构 的 PC，MACHINE 最 后 会 被 蔡 换 为 "I386_PC"， 展 开 后 
为 GRUB_BOOT _1386_PC_KERNEL_SEG: 


grub-2.00/include/grub/offsets.h: 


i#define GRUB BOOT I386 PC KERNEL SEG OQX800 


也 就 是 说 ，diskboot.img 将 core.img 中 除 diskboot.img 外 的 部 分 加 载 到 
内 存 的 段 地 址 为 0x820。 在 diskboot.img 进 行 加 载 时 ， 将 段 内 偏 移 设置 为 
了 0， 上 所 以 最 终 core.img 的 其 余部 分 家 加 载 到 了 从 内 存 地 址 0x8200 开 始 的 
地 方 。 在 前 面 讨论 boot.img 时 ， 我 们 看 到 ，boot.img 将 diskboot.img 加 载 
到 了 0x8000 处 。 也 就 是 说 ，diskboot.img 正 好 占据 了 一 个 扇 区 〈0x200 字 
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事实 上 ， 对 于 MBR 分 区 方案 ， 如 果 采 用 了 舱 入 式 的 安装 方式 ， 那 
么 只 要 有 一 个 blocklist 克 下 够 了 。 当 使 用 非 众 入 陈 的 安 猴 方式 时 ， 
core.img 可 能 委 分 块 存储 在 做 盘 上 ， 因 此 ，diskboot.img 中 可 能 存在 多 个 
blocklist， 每 一 个 blocklist 代 表 一 段 连续 的 而 区 。 第 一 个 blocklist 位 于 
diskboot.img 的 最 后 ， 每 增加 一 个 blockllist， 问 着 diskboot.img 开 始 的 方 
器 延伸 。 


为 了 控制 core.img 的 体积 ，GRUB 将 core.img 进 行 了 压缩 。 显 然 
diskboot.img 是 不 能 压缩 的 ， 因 为 bootimg 中 没有 任何 解压 代码 。 因 此 ， 
GRUB 只 将 core.img 中 的 kernelimg 和 模块 进行 了 压缩 。 对 于 基于 x86 架 构 
的 PC，GRUB 默 认 使 用 的 是 lzma 压 缩 算 法 。 当 然 安装 GRUB 前 创建 
core.img 时 ， 用 户 也 可 通过 命令 行 参数 指定 压缩 算法 ， 但 是 从 2.0 版 本 的 


代码 来 看 ， 对 于 x86 架 构 来 说 ， 只 能 使 用 lzma 压 缩 寞 法 。 


既然 有 压缩 部 分 ， 束 要 有 负责 解压 的 部 分 。GRUB 将 lzma 算 法 的 解 
压缩 代码 编译 为 lzma_decompress.img， 连 接 在 diskboot.img 的 后 面 。 
diskboot.img 将 core.img 加 载 进 内 存 后 ， 将 跳 转 到 lzma_decompress.img， 
执行 其 中 代码 解压 缩 core.img 后 面 的 压缩 部 分 。 下 面 的 代码 瓯 是 
diskboot.img 加 载 完 core.img 后 进行 的 跳 转 : 


grub-2.00/grub-core/boot/i386/pc/diskboot.s8: 


LOCAL {boot1it): 


1-]mp $0, (GRUB BOOT MACHINE KERNEL ADDR + 0xXx200) 


安 GRUB_BOOT_MACHINE_KERNEL_ADDR 和 定义 如 下 : 


#define GRUB BOOT MACHINE KERNEL ADDR 
(GRUB BOOT MACHINE KERNEL SEG << 4) 


刚刚 我 们 已 经 看 到 了 ， 宏 GRUB_BOOT_MACHINE_KERNEL_SEG 
值 为 0x800， 于 是 左 移 4 位 后 ， 安 
GRUB_BOOT_MACHINE_KERNEL_ADDR 的 值 为 0x8000。 可 见 ， 加 载 
完 core.img 剩 余部 分 后 ，diskboot.img 跳 转 到 了 地 址 0x8000+0x200 处 ， 正 
是 lzma_decompress.img。1lzma_decompress.img 解 压 后 面 的 压缩 的 映像 ， 
最 终 跳 转 到 kernel.img。 


根据 其 名 字 我 们 就 可 以 猜 到 了 ，kernel.img 是 GRUB 的 核心 代码 了 。 
其 中 包括 为 压 层 其 体 的 磁盘 驱动 以 及 文件 系统 驱动 提供 公共 的 服务 层 。 
kernelimg 的 主 入 口 函数 是 grub_main。lzma_decompress.img 解 压 后 正 是 
跳 转 到 这 个 函数 ， 从 某 种 意义 上 讲 ， 这 里 才 是 GRUB 的 真正 开始 。 


grupbp-2.00/7g9rub-corey/kernymaln .cec: 


void attribute (‘noreturn})} grub main lvoid) 


| 


grub load modules (); 


鉴于 内 入 区 域 的 尺寸 有 限 ， 因 此 只 有 最 关键 的 模块 才能 包含 到 
core.img 中 ， 随 看 core.img 一 起 众 入 到 MBR 后 面 的 空 亲 面 区 。 那 么 哪些 
模块 是 关键 模块 有 呢 ? 只 有 core.img 文 持 文件 系统 ， 它 才 可 以 谈 入 其 他 模 
块 。 所 以 ， 这 就 是 磁盘 驱动 模块 biosdisk.mod、MBR 分 区 模式 模块 
part_msdos.mod 以 及 文件 系统 的 驱动 模块 ext2.mod (虽然 其 名 字 为 ext2， 
但 是 这 个 模块 支持 EXT 系 列 文件 系统 ) 包含 到 core.img 中 的 原因 ， 它 们 
的 目的 是 驱动 文件 系统 。 


这 几 个 模块 虽然 已 经 被 diskboot.img 加 载 进 了 内 存 ， 但 是 显然 只 是 
将 它们 简单 地 “ 放 到 ”内 存 中 还 是 不 够 的 ， 因 为 这 些 模 块 就 相当 于 目标 文 
件 ， 指 令 和 数据 地 址 都 是 从 0 开始 分 配 的 ， 比 如 以 笔者 机 器 上 的 GRUB 
的 模块 ext2.mod 为 例 : 


root@baisheng:/boot/grub/i386-pc# readelf -S ext2 .mod 


Section Headers: 


[Nr] Name Type Addr Qff Size 
bb NULDL 00000000 000000 000000 
[ 工 | text PROGBITS 00000000 000034 000cb7 


所 以 需要 为 它们 进行 章 定 位 ， 还 是 以 这 个 模块 为 例 ， 我 们 可 以 看 到 


其 有 大 量 需 要 重 定 位 的 符号 : 


root@baisheng:/boot/grub/i386-pc# readelf -r ext2 .moda 


Relocation section '‘'.rel.text' at offset 0X1330 contains 101 
Offset TNS Type Sym.Value Sym. Name 
0000000a 00001702 R 386 PC32 00000000 grub free 


Relocation section '.rel.data' at offset 0Xx1658 contains 8 entries: 
Offset Info Type Sym.Value Sym. Name 
00000008 00000201 R 386 32 00000000 -odatea st 


5.1.2 ”安装 GRUB 


通常 ， 在 安装 操作 系统 的 最 后 ， 操 作 系 统 安装 程序 将 会 为 用 户 安 装 
GRUB。 当然 ， 有 了 时 我 们 也 会 手动 安装 GRUB。 但 古都 古 退 过 GRUB 近 
供 的 工具 ， 执 行 的 命令 如 下 : 


grub-install /dev/sda 


事实 上 ， 在 这 个 安装 命令 的 背后 ，GRUB 的 安 冯 过 程 分 为 两 个 阶 
段 : 第 一 阶段 是 创建 core.img，GRUB 为 此 提供 的 工具 是 grub-mkimage:; 
第 二 阶段 是 安装 boot.img 及 core.img 到 硬盘，GRUB 提 供 的 工具 是 grub- 
setup。 为 了 方便 ，GRUB 将 这 两 个 过 程 封 演 到 脚本 grub-install 中 。 


在 创建 core.img 时 ，grub-mkimage 需 要 获取 需要 加 入 core.img 的 模 
块 ，GRUB 也 提供 了 相应 的 工具 grub-probe。grub-install 利 用 这 个 工具 根 
据 内 核 映 像 所 在 的 介质 ， 上 自动 探 测 所 十 要 的 模块 ， 并 将 它们 传 给 grub- 
mkimage。 以 笔者 机 需 为 例 ， 使 用 grub-probe 探 测 破 盘 分 区 方式 和 文件 系 
统 的 的 方法 如 下 : 
rootebaisheng: ~# grub-probe ~-target=partmap -d /dev/sdal 


root@baisheng:~# grub-probe --target=fs -Q /dev/sdal 
ext2 


1. 创 建 映像 


grub-install 首先 调用 grub-mkimage 创 建 core.imng， 我 们 结合 其 产 代 三 
来 讨论 core.img 的 创建 过 程 。 


grub-2.00/util/grub-mkimage.c: 


01 static void generate image (.,.,., FILE *out, ..., Char *mods{}), 
02 f 

03 

04 path list = grub util resolve dependencies (dir., 

05 "moddep.lst", mods); 

06 


07 kernel path = grub util get path (dir, "kernel .1img").; 

08 全 

09 kernel img = load image32 (kernel path, ...); 

10 

二 for (p = path list; p; p = p->next) 

12 { 

13 ee 

14 grub util load image (p->name, kernel img + offset); 
15 

16 } 

Bf 攻 王 

18 compress kernel (image target, kernel img, kernel size + 
19 total module size, &core img, &core size, Comp); 

20 六 

21 if (image target->flags & PLATFORM FLAGS DECOMPRESSORS) 
22 { 

一 寺 

24 Switch (comp) 

25 { 

26 要 

case COMPRESSION LZMA.: 

28 name = "lzma decompress .1img"; 

29 break.; 

30 Et 

31 } 

32 

33 decompress img = grub util read image (decompress Path) ; 
34 名 

35 memcpy (full img, decompress img, decompress size); 


37 memcpy (full img + decompress size, core img, Ccore size),; 
39 core img = full img; 

40 core size = full size; 

41 } 

43 switch (image target->id) 

44 { 

45 CaBe IMAGE J386 PG: 

46 case TMAGE E386 PC PXE: 

47 { 

49 boot. path := grub util get. path (diry "diskboot LO 7 
Sh boot img = grub util read image (boot path); 

53 { 

54 Sracst Grob pe pio boot DlockLiat *ulock:; 

55 block = (struct grub. pe bio8 boot blockl1iest *) 

56 (boot img + GRUB DISK SECTOR SIZE - sizeof (*block)); 
57 block->len = grub host to target16 (num),; 


59 } 


61 grub util write image (boot img, boot size, out, 
62 outname).; 


66 } 


68 grub util write image (core img, Ccore size, out, outname); 


根据 上 面 的 代码 可 见 ， 创 建 core.img 的 主要 过 程 如 下 : 
1) generate_image 访 取 kernel.img 到 内 存 ， 见 代码 第 7~9 行 。 


2) 际 了 kernel.img 外 ， 还 要 将 一 些 模块 合并 到 core.img 中 。 传 递 给 
函数 generate_image 的 参数 mods 是 一 个 数组 ， 其 中 记录 的 是 每 个 要 合 3 
全 core.img 中 的 模块 。 但 是 这 些 模 块 可 能 还 依赖 其 他 模块 ， 所 以 代 人 码 第 
4~5 行 是 检查 这 些 模块 鸭 依赖 模块 ， 并 将 这 些 模块 记录 到 链表 path_list 
中 。 然 后 ， 第 11~16 行 的 代码 将 这 些 模 块 全 部 加 载 到 kernel.img 的 后 面 。 


3) 至 此 ，kernel.img 和 各 个 模块 组 成 的 core.img 组 装 完 成 。 为 了 在 
62 个 刷 区 中 容纳 下 core.img， 所 以 代码 第 18~19 行 压缩 core.img。 对 于 基 
于 IA32 织 构 的 PC，GRUB 使 用 的 默认 压缩 方法 是 LZMA。 


4) 既然 压缩 了 core.img， 那 么 就 得 有 人 来 负责 解压 缩 。 如 同 内 核 采 
用 的 方法 ，GRUB 也 在 压缩 的 core.img 前 面 附 加 了 一 段 未 经 压缩 的 指 
令 ， 见 代码 第 21~37 行 。 如 果 core.img 使 用 的 是 LZMA 压 缩 方法 ， 则 


generate_image 读 取 lzma_decompress.img， 将 其 附加 到 core.img 的 前 面 。 


5) 如 果 core.img 是 为 基于 IA32 的 PC 创建 的 ， 那 么 在 core.img 的 最 前 
面 还 要 附加 一 个 diskboot.img， 代 人 码 第 43~66 束 是 准备 diskboot.img。 因 为 
diskboot.img 人 负责 将 core.img 中 除 diskboot.img 的 部 分 读 入 内 存 ， 因 此 ， 
diskboot.img 和 需要 知道 core.img 所 在 的 而 区 信息 。 因 为 这 里 已 经 确定 了 
core.img 占 用 的 大 小 ， 所 以 ，generate_image 将 core.img 占 用 的 局 区 数 瑟 
入 了 diskboot.img 最 后 的 blocklist 中 ， 这 束 古 代 人 第 53~59 行 的 目的 。 准 
备 好 diskboot.img 后 ，generate_image 将 其 写 入 了 在 磁盘 上 保存 core.img 的 
文件 ， 见 代 人 码 第 61~62 行 ， 其 中 out 束 是 对 应 的 文件 core.img。 


6) 在 将 diskboot.img 写 入 似 礁 文件 core.img 后 ，generate_image 将 内 
和 仓 中 的 core.img 的 其 他 部 分 ， 包 括 lzma_decompress.img、kernel.img 以 及 
需要 合并 到 core.img 中 的 模块 ， 也 与 入 磁盘 上 的 文件 core.img 中 ， 去 接 在 
diskboot.img 之 后 。 全 此 ，core.img 映 像 创 建 完 毕 。 


2. 安 痛 脆 像 


创建 完 core.img 映 像 后 ，grub-install 将 调用 grub-setup 将 core.img 〈 包 
括 boot.img)〉 安 疙 到 便 盘 。 下 面 我 们 结合 grub-setup 的 代码 来 讨论 这 一 过 


程 。 


grub-2.00/util/grub-setup.c: 


91 statye Volad Bebo bv 


5 

03 

04 boot img = grub util read image (boot path),; 

05 i 

06 core img = grub util read image (core Path) ; 

07 i 

08 if (is ldm) 

09 err = grub util ldm embed (dest dev->disk, é&nsec, maxsec, 
10 GRUB EMBED PCBIOS, &sectors),; 
1 else if (dest partmap) 

王立 err = dest partmap->embed (dest dev->disk, é&nsec, maxsec, 
3 GRUB EMBED PCBIOS, &sectors); 
14 else 

也 err = fs->embed (dest dev, &nsec, maxsec, 

16 GRUB EMBED PCBIOS, &sectors),; 

a a 

18 fer (TE 13 1 交 天 且 已 臣 六 涝 十 击 ) 

二 翅 save blocklists (sectors[i] + grub partition get start 
20 (container), 0, GRUB DISK SECTOR SIZE); 

有 于 要 

22 write rootdev (core img, root dev, boot img, first sector); 
23 站 

24 fOr (EE 三 8 工交 BEG 二 下 十 

25 grub disk write (dest dev->disk, sectors|[i], 0, 

26 GRUB DISK SECTOR SIZE, 

27 Core img + 1 * GRUB DISK SECTOR SIZE).; 
28 a 

29 If (grub disk write (dest dev->disk, BOOT SECTOR, 

30 0, GRUB DISK SECTOR SIZE, boot img)) 

3 

3 


根据 上 述 代码 可 见 ， 安 装 GRUB 的 主要 过 程 如 下 : 


1) grub-setup 首 先 读 取 boot.img 和 core.img 到 内 存 ， 见 代码 第 4~6 


= 


人 


2) boot.img 的 安 状 位 置 是 国定 的 ， 即 MBR， 但 是 grub-setup 需 要 确 
定 core.img 安 六 的 出 区。 对 于 不 同 的 情况 ， 确 定 的 方法 是 不 同 的 。 代 码 


第 8~10 行 是 针对 多 个 磁盘 组 成 的 馆 辑 盘 的 情况 。 


售 则 依次 符 弃 使 用 具体 


分 区 方 采 以 及 文件 系统 提供 的 embed 函 数 ， 见 代码 第 11~16 行 。 代 表 
MBR 分 区 方 条 的 对 象 吓 msdos， 其 中 提供 了 获取 安装 GRUB 所 在 的 届 区 
图 数 pc_partition_map_embed， 访 图 数 将 计算 core.img 安 荫 的 而 区 ， 并 将 
结果 保存 到 数组 sectors 中 。 变 量 nsec 记 录 的 是 core.img 占 用 局 区 数 。 


3) 在 确定 了 core.img 有 的 安 北 届 区 后 ， 显 然 要 将 diskboot.img 中 的 
blocklist 填 充 上 ， 代 码 第 18~20 行 就 是 在 做 这 件 事 。 


4) 一 旦 确定 了 core.img 安 竣 的 硬 区 ，grub-setup 还 要 修订 boot.img。 
虽然 对 骨 入 式 安装 而 言 ，diskboot.img 就 安装 在 第 2 个 扇 区 ， 但 是 GRUB 
不 能 进行 这 样 的 假设 ， 因 为 还 有 可 能 使 用 非 众 入 的 安 疤 方式。 因此 ， 
grub-setup 需 要 设置 bootimg 中 diskboot.img 所 在 的 扇 区 ， 见 代码 第 22 行 。 
其 中 所 谓 的 first_sector 就 是 core.img 的 第 1 个 扇 区 ， 即 diskbootimg 占 据 的 
便 盘 而 区 。 


5) 脆 像 准 备 好 后 ， 如 末 采 用 仍 入 却 安 疼 ， 那 么 需要 将 core.img 通 入 
MBR 后 面 的 空闲 扇 区 ， 即 数组 sectors 中 记录 的 局 区 ， 见 代码 第 24~27 
行 。 对 于 散 入 式 安 疾 ， 因 为 是 散 入 在 一 块 连续 的 珊 区 ， 所 以 
diskboot.img 中 只 需要 记录 一 个 blocklist， 如 图 5-3 所 示 。 


core.Img 





boot.Img blocklist area 


diskboot.Iimg 


core.img = diskboot.img + core .Img 


core' .Img = lzma decompress.img + kernel.img + ext2.mod + other mods 


图 5-3 散 入 式 安装 GRUB 示 意图 
6) 最 后 ，grub-setup 将 boot.img 写 入 MBR， 见 代码 第 29~30 行 。 


为 简单 起 见 ， 上 面 代 码 中 上 略 去 了 非 租 入 式 安 装 的 情况 。 在 非 散 入 式 
安 兹 情况 下 ，GRUB 不 需要 将 你 存在 文件 系统 中 的 core.img 写 入 到 MBR 
后 面 空 闲 的 扇 区 中 ， 而 只 需要 将 文件 系统 中 的 core.img 所 在 的 而 区 写 入 
disbootimg 的 blocklist， 将 diskboot.img 所 在 的 扇 区 写 入 boot.img 即 可 。 
为 core.img 很 有 可 能 不 是 连续 存储 在 硬盘 上 的 ， 所 以 diskboot.img 中 需要 
记录 多 个 blocklist， 这 就 是 diskboot.img 后 面 预 留 了 多 个 blocklist 空 间 的 原 
央 ， 如 图 5-4 所 示 。 


人 一 一- 一 


boot.img a area 





diskboot.img 
Partition 1 


core.img = diskboot.img + core'-l.img + core'-2.img 


core'-1.img + core'-2.img = lzma decompress.img + kernel.img + ext2.mod + other mods 


图 5-4 非 洋 入 式 安装 GRUB 示 意 


5.1.3” ”GRUB 启动 过 程 


我 们 知道 ， 在 PC 启动 时 ，BIOS 会 将 MBR 中 的 程序 加 载 到 内 存 的 
0x7c00 处 ， 并 跳 转 到 那里 开始 执行 。 对 于 GRUB 来 说 ， 对 应 MBR 中 的 映 
像 是 boot.img， 在 编译 boot.img 时 ， 编 译 脚本 确实 也 是 指导 链接 器 从 
0x7c00 开 始 为 其 指令 和 数据 分 配 地 址 的 ， 如 下 面 编译 脚本 片段 中 使 用 黑 
体 标 识 的 部 分 : 

grub-2,.007grub-core makefile,core am: 


i GONMND: T3838 Pe 
platform PROGRAMS += boot.image 


boot image LDFLAGS = $(AM LDFLAGS) $ (LDFLAGS IMAGE) ... 0x7c00 
i 
读者 可 能 会 注意 到 脚本 中 映像 的 后 级 是 "image"， 而 不 是 "img"， 这 
是 因为 编译 脚本 最 后 会 将 ELF 格 式 的 boot.image 转 换 为 宰 二 进 制 格式 ， 
并 命名 为 boot.img。 其 余 映像 也 是 如 此 处 理 。 


当 跳 转 到 0x7c00 后 ，GRUB 开 始 执 行 ， 其 局 动 过 程 大 体 如 图 5-5 所 


人 \o 


modules 


lzma decompress.img | 
| I 
mn 


10.load modules 





8.m ove kernel.imp to Ox9000 





9.jmp to kernel.img 


| kernel.img | 
i 4.loaded by 
diskboot.img 


这 | img 2.loaded by 


7.mp to decompressed kernsel.img 


0x9000 core.Iimg 





2.Jmp to 0x8200 es 
, boot.img 
lzma decompress.imgL diskboot.img leo me 
3.jmp to boot.img 
eh 
Sa bootimg img l.loaded by BIOS &  _ Disk 
| 
RAM 


图 5-5 ” GRUB 启动 过 程 
(1) bootimg 加 载 diskboot.img 


boot.img 使 用 BIOS 中 断 号 为 0x13 的 基于 届 区 的 磁盘 读 与 服务 加 载 
diskboot.img。GRUB 使 用 从 0x70000 开 始 处 的 一 段 内 存 作 为 BIOS 读 组 
人 存 ， 所 以 BIOS 衣 先 将 diskboot.img 访 到 内 存 0x70000 处 ， 然 后 boot,img 册 


将 其 移动 到 内 存 0x8000 处 。 根 据 下 面 脚本 户 段 中 黑色 标识 的 部 分 可 见 ， 
链接 器 确实 是 从 0x8000 为 diskboot.img 分 配 地 址 的 : 


grub-2.00/grub-core/Makefile.core .am: 


af COND E38365. DE 
platform PROGRAMS += diskboot.image 


diskboot image LDFLAGS = $(AM LDFLAGS) $ (LDFLAGS IMAGE) ... 0x8000 


diskboot image OBJCOPYFLAGS = $ (OBJCOPYFLAGS IMAGE) -OO binary 
endif 


boot.img 将 diskboot image 加 载 完 成 后 ， 跳 转 到 diskboot 中 的 第 一 条 指 
令 处 继续 执行 。 


(2) diskboot.img 加 载 core.img 


与 boot.img 类 似 ，diskboot.img 使 用 BIOS 中 汤 亏 为 0x13 的 基于 局 区 的 
倒 盘 读 写 服务 加 载 core.img。 了 BIOS 将 lore.img 读 到 缓存 0x70000 处 ， 然 后 
diskboot.img 将 其 移动 到 0x8200 处 ， 最 后 跳 转 到 0x8200 处 开始 执行 


lzma_decompress.img。 
(3) core.img 目 解压 


在 讨论 GRUB 创 建 映 像 时 ， 我 们 看 到 ， 连 接 在 core.img 前 器 的 
1zma_decompress.img 并 没有 被 压缩 ， 而 这 段 没 有 被 压缩 的 部 分 的 作用 了 束 
是 负责 解压 core.img 其 余 压 缩 的 部 分 。 我 们 来 看 看 构建 
lzma_decompress.img 的 脚本 片段 : 


grub-2.00/grub-core/Makefile .core .am: 


NDS Pe 
Platform PROGRAMS += lzma decompress.image 


lzma decompress image SOURCES = boot/i386/pc/startup raw.s 
lzma decompress image LDFLAGS = $(AM LDFLAGS) ... 0x8200 
endif 


core.img 被 diskboot.img 加 载 到 0x8200 处 ，lzma_decompress.img 作 为 
core.img 的 开交， 其 地 址 应 该 从 0x8200 人 分配， 根据 上 面 的 编 详 脚本 ， 即 


可 见 这 一 点 。 


从 脚本 可 见 ，lzma_decompress.img 的 开头 是 startup_raw.S， 其 正 是 
解压 core.img 有 的 地 方 ， 见 下 和 面 的 代码 : 


grub-2.00/grub-core/boot/i386/pc/startup raw.s: 


#1ifdef ENABLE LZMA 
movl SGRUB MEMORY MACHINE DECOMPRESSION ADDR, $%edi 


pushl Sedi 


push Secx 


call LzmaDecodeA 
pop Secx 
/* LzmaDecodeA clears DF, so no need to run cld */ 
popl Sesi 
#endif 


jmp *%esi 


#1ifdef ENABLE LZMA 
#include "lzma decode.S" 
#endif 


其 中 ，_LzmaDecodeA 束 是 进行 解压 的 图 数 ， 其 实现 在 文件 
lzma_decode.S 中 ， 所 以 startup_raw.S 将 这 个 文件 包含 进来 。 


lzma_decompress.img 将 core.img 解 压 到 内 存 


GRUB MEMORY MACHINE DECOMPRESSION ADDR 处 ， 定 义 如 
下 : 


grub-2.00/include/grub/i386/pc/memory.h: 


/* The area where GRUB is decompressed at early startup. */ 
#define GRUB MEMORY MACHINE DECOMPRESSION ADDR 0x100000 


因为 低 端 内 存 捉襟见肘 ， 所 以 GRUB 使 用 从 1MB 开 始 的 空间 作为 解 
压 的 缓冲 区 。 


GRUB 之 所 以 能 访问 I1MB 以 上 的 内 存 地 址 ， 是 因为 开局 了 CPU 的 保 
护 模 式 。 但 是 GRUB 并 没有 局 用 分 页 ， 而 是 采用 了 段 式 寻 址 ， 而 且 还 采 
用 了 特殊 的 平坦 内 存 模型 (flat model) ， 即 段 基 址 为 0。 平 坦 内存 模 型 
的 寻 址 比较 简单 ， 某 种 意义 上 就 是 短路 了 CPU 的 段 机 制 ， 对 于 未 开启 分 
页 的 平坦 内 存 模 型 ， 偏 移 地 址 就 是 最 后 的 物理 地 址 。GRUB 中 使 用 了 平 
坦 内 存 模型 的 GDT 的 设置 如 下 : 


grub-2.00/grub-core/kern/i386/realmode.s: 


gadt: 

.Word 0 二 渔 

NE 旋光 光 y 驳 

/* -- Code segment -- 

* base = Ox00000000, limit = OXxFFFFF (4 KiB Granularity), present 
* type = 32bit code execute/read, DPL = 0 

本 

.Word OXFFFF, 0 

.byte Qs OEIN OEECED MO 

/* -- data segment -- 


* base = Ox00000000, limit OxFFFFF (4 KiB Granularity), present 
* type = 32 bit data read/write, DPL = 0 


.Word OXFFFF, 0 
.byte 9, 9 夹 9 这 ,。 有 元 CR 六 


/* this is the GDT descriptor */ 


gdtdesc: 
.Word O027 nm LEM wf 
els gdt /* addr */ 


core.img 解 压 完成 后 ，lzma_decompress.img 将 跳 转 到 解压 的 core.img 
处 继续 执行 。 根 据 前 面 讨论 的 core.img 的 构成 ，core.img 的 压缩 部 分 包括 
kernel.img 和 必要 的 模块 ， 所 以 经 过 这 次 跳 转 后 ，GRUB 跳 转 到 了 映像 
kernel.img 的 开头 。 


(4) kernel.img 将 目 己 复制 回 0x9000 


为 Linux 内 核 和 initramfs 可 能 被 加 载 到 内 存 从 1MB 开 始 的 任何 地 
方 ， 所 以 GRUB 要 给 它们 指 路 。 为 此 ，GRUB 虽 然 使 用 了 1MB 以 上 的 区 
域 作为 解压 使 用 的 缓冲 区 ， 但 是 解压 后 要 移动 回 IMB 以 下 的 区 域 。 


我 们 看 一 下 kernel.img 的 构建 脚本 : 


grub-2.00/grub-core/Makefile.core.am: 


if COND i386 Be 

platform PROGRAMS += kernel .exec 

Kernel] exec SOURCES = kern/i386/pc/startup.s8 
kernel exec SOURCES += kern/generic/rtc get time ms.c 
term/i386/vga common.c kern/i386/pc/init.c 


kernel exec LDFLAGS = $(AM LDFLAGS) $ (LDFLAGS KERNEL) ...,0x9000 


kernel .img: kernel .execs (EXEEXT) 
...$(STRIP) S$ (kernel exec STRIPFLAGS) -DO S$@ $< ,.. 
endif 


根据 kernel.img 的 编 详 脚本 可 见 ，kernel.img 的 开头 是 startup.S， 
kernel.img 的 代码 就 在 这 个 文件 中 : 


grub-2.00/grub-core/kern/i1386/pc/startup.3s: 


start: 
.EE a 


#ifdef APPLE 


moOWvl1 SEXT C( edata), ®Secx 

Subl SLOCAL (start), $ecx 
#else 

moOV1 $( edata - start), %ecx 
#end1if 

mOV] $( start), Sedi 

rep 

moveb 

mOV1 SLOCAL (cont}, Sesi 


jmp *$SEesi 
LOCAL (Cont): 


call EXT CIgrub main) 


根据 startup.S 的 代码 可 见 : 


1) startup.S 调 用 x86 的 指令 movsb 移 动 映像 。 


2) 寄存 需 esi 中 的 值 是 移动 的 源 地 址 。 在 解压 core.img 时 ， 解 压 后 的 
core.img 的 地 址 ， 即 1MB， 已 经 保存 在 寄存 器 esi 中 了 。 


3) 寄存 器 edi 的 值 是 移动 的 目的 地 址 。 在 代码 中 ， 寄 存 器 edi 的 值 被 
设置 为 符号 _start 的 地 址 ， 这 个 符号 地 址 是 多 少 呢 ?注意 编译 脚本 中 传 
给 链接 器 的 参数 kernel_exec_LDFLAGS， 其 请 求 链接 器 从 0x9000 开 始 为 
kernel.img 分 配 地 址 ， 而 _start 恰 位 于 kernel.img 的 开头 ， 所 以 符号 _start 的 
地 址 是 0x9000。 因 此 ，kernel.img 就 是 将 自身 移动 到 0x9000 处 。 


4) 寄存 器 ecx 的 值 是 移动 的 字 节 数 。 从 代码 中 计算 ecx 的 值 来 看 ， 
startup.S 只 移动 从 _edata 到 _start 的 这 上 段 指令 和 数据 ， 而 _edata 是 链接 器 定 
义 的 代表 kernel.img 的 数据 段 结 束 的 位 置 ， 也 就 是 说 ，startup.S 只 是 将 
kernel.img 移 动 到 了 0x9000 处 ， 并 没有 移动 模块 。 在 讨论 core.img 的 构成 
时 ， 我 们 已 经 谈 到 模块 需要 重 定位 ， 所 以 不 能 简单 地 进行 移动 。 


5) 在 移动 完 kernel.img 后 ，startup.S 再 次 使 用 跳 转 指 令 jmp 跳 转 到 了 
移动 后 的 位 置 继 续 执行 ， 并 转 入 了 GRUB 真 正 的 核心 部 分 ， 即 C 语 言 写 
的 函数 grub_main 处 。 


grub-2.00/grub-core/kern/main.c: 


vold attribute ((noreturn}) grub main (voild) 


| 


grub load modules (),， 


grub load normal mode () ; 


疯 数 grub_main 调 用 疯 数 grub_load_modules 装 配 模 块 ， 然 后 调用 
grub_load_normal_mode 加 载 hnormal 模 块 ， 这 个 模块 拉 开 了 了 加载 Linux 内 
核 和 initramfs 的 大 幕 。 


5.1.4 ”加 载 内 核 和 initramfs 


normal 模 块 读 取 并 解析 GRUB 配 置 文 件 grub.cfg， 然 后 根据 grub.cfg 
中 的 具体 命令 ， 加 载 相应 的 模块 。 命 令 和 模块 的 关系 记录 在 文件 
command.lst 中 ， 通 党 GRUB 将 该 文件 被 安 状 在 /boot/grub/i386-pc 目 杂 
下 ，normal 模 块 加 载 时 将 加 载 这 个 文件 。command.lst 包 括 两 列 ， 第 一 列 
是 命令 ， 第 二 列 是 该 命令 所 在 的 模块 : 


/boot/grub/i386-pc/command.1lst: 


lnitrdilé6: linuxleé 
lnitrd: linux 

Keymap: keylayouts 
ktreebsd loadenv: bsd 
kitreebsd module: bsd 
kitreebsd module elt: bsd 


11PmUX16: 1]1nuxl6 
]1nux: 1]1nux 


以 下 面 的 GRUB 配 置 文件 中 的 片段 为 例 : 


set root= (hd0.,1) 
linux /boot/bzImage root=/dev/sdal ro quiet splash 
initrd /boot/initrd.,1img 


当 normal 模 块 过 到 命令 如 "linux"、"initrd" 时 ， 将 到 文件 command.lst 


中 查找 这 些 命令 所 在 的 模块 。 根 据 command.lst 可 知 ， 命 

令 "linux"、"initrd" 都 在 模块 linux 中 ， 因 此 ，normal 模 块 将 加 载 linux 柑 
块 。 然 后 ， 调 用 linux 模 块 中 的 命令 "linux"、"initrd"， 完 成 Linux 内 核 以 
及 initramfs 的 加 载 。 本 节 中 ， 我 们 通过 分 析 这 两 个 命令 对 应 的 回调 省 
数 ， 来 探讨 Linux 内 核 和 initramfs 的 加 载 。 


1. 引 导 协 议 


Bootloader 负 责 加载 内 核 ， 显 然 Bootloader 和 内 核 之 间 需 要 分 享 一 些 
数据 。 和 典型 的 比如 Bootloader 需 要 知道 内 核 的 体 护 模式 部 分 和 希望 加 载 到 
什么 位 置 ? 内 核 是 不 是 可 重 定 位 内 核 ? 从 内 核 的 角度 ， 则 需要 清和 区 
Bootloader 将 initramfs 加 载 到 了 内 存 的 什么 位 置 、initramfs 的 太吉 是 多 少 


和 
“jo 


因此 ， 内 核 和 引导 程序 之 间 和 需要 有 个 约定 ， 这 个 约定 称 为 引导 协议 
(boot protocol) ， 也 称 为 16 位 引导 协议 〈16-bit boot protocol) 。 访 协 
议 约定 了 Bootloader 和 内 核 之 间 分 对 的 数据 存储 的 位 置 、 大 小 以 及 哪些 


由 内 核 提 供给 Bootloader， 哪 些 由 Bootloader 提 供给 内 核 等 。 


在 进入 保护 模式 后 ， 内 核 将 不 会 再 切换 到 实 模式 ， 而 便 件 相关 的 参 
数 必须 在 实 模式 下 借助 BIOS 中 断 著 有 取 。 为 此 ， 在 早期 的 内 核 中 ， 内 核 
中 包含 了 一 部 分 实 模式 代码 ， 即 setup.bin， 其 主要 功能 之 一 就 是 为 保护 
模式 部 分 的 代码 获取 人 硬件 的 信息 ， 也 就 是 内 核 中 所 说 的 零 页 (zero- 


page) 中 规定 的 信息 。 


随 着 新 的 BIOS 标 准 ， 如 EFI、LinuxBIOS 等 的 出 现 ， 出 现 了 32 位 引 
导 协 议 (32-bit boot protocol) 。 在 32 位 引导 协议 下 ， 除 了 传统 的 16 位 协 
议 ，Bootloader 取 代 内 核 中 实 模 式 部 分 负责 收集 便 件 信息 〈 即 零 页 信 
轧 ) 的 功能 。 而 且 Bootloader 会 将 CPU 切 换 为 保护 模式 ， 在 内 核 和 
initramfs 加 载 完 成 后 ，Bootloader 不 再 跳 转 到 内 核实 模式 部 分 ， 而 是 直接 
中 转 到 内 核 的 你 护 模式 部 分 。 


下 面 我 们 束 来 看 看 在 32 位 引 守 协议 下 ， 内 核 和 Bootloader 之 间 是 如 


何 分 至 信息 的 。 
(1) 内 核 回 Bootloader 传 递 信 息 
内 核 中 引导 协议 的 相关 部 分 在 文件 arch/x86/boot/header.S 中 : 


1 inux-3.7.4/arch/x86/boot/header.s: 


.Section ".header™, an 
i . ong 0 
ramdisk silze: .1 ong 0 
ee .long CONFIG PHYSICAL ALIGN 
relocataDle kernel: .byte 1 


pref address: .duad LOAD PHYSICAL ADDR 


上 面 列 出 了 几 个 典型 的 信息 ， 其 中 ramdisk_image 和 ramdisk_size 是 
由 Bootloader 负 贡 填 充 的 ， 告 诉 内 核 initramfs 补 加 载 到 了 内 存 的 什么 位 
置 ， 占 据 多 大 空间 。 而 kernel_alignment、relocatable_kernel、 
pref_address 则 由 内 核 负 责 填充 ， 告 知 Bootloader 内 核 加 载 的 对 齐 要 求 、 
内 核 是 否 是 可 以 重 定 位 的 以 及 内 核 希 望 的 加 载 地 址 等 信息 。 


引导 协议 规定 ， 协 议 数据 从 内 核 映 像 的 偏 移 0x1F1 处 开始 ， 所 以 在 
header.S 中 使 用 汇编 伪 指 令 .section".header" 指 示 编 译 器 将 引导 数据 所 在 
的 段 定义 为 ".header"， 并 在 setup.bin 的 链接 脚本 中 将 此 段 安 排 在 内 核 映 
像 偏 移 0x1F1 处 : 


linux-3.7.4/arch/x86/boot/setup.1d: 


SECTIOVONS 


.header : { *(.header) | 


setup.1d 指 示 链 接 堪 将 段 ".header"' 链 接 在 地 址 497 处 ， 其 十 六 进 制 即 
0x1F1， 这 恰 是 引导 协议 约定 的 位 置 。GRUB 加 载 内 核 时 ， 将 首先 从 
setup.bin 中 该 取 引 导 协 议 相 天 的 信息 。 


对 于 零 页 中 规定 的 信息 ， 并 不 需要 从 内 核 传 递 给 Bootloader， 所 以 


setup.bin 中 定义 的 依然 是 传统 的 16 位 引导 数据 。 
(2) Bootloader 问 内 核 传递 信息 


Bootloader 同 内 核 传 递 的 信息 ， 要 比 内 核 同 Bootloader 的 传递 复杂 一 

。 因 为 除了 传统 的 16 位 引导 信息 外 ， 还 需要 癌 内 核 传递 零 页 信息 。 
Bootloader 和 内 核 均 为 此 定义 了 一 个 数据 结构 ， 通 弟 将 这 个 结构 体 称 为 
引导 参数 (boot parameters) 。GRUB 中 的 定义 如 下 : 


grub-2.00/include/grub/i386/l1inux.h: 

struct linux kernel params 
grub uints t video cursor x; i 0 
grub uint8 t video cursor y; 


grub uinte t PadqdLngo lO0rlfl = Oxle9)s 


grub uint8 t setup sects; /* The size of the setup in sectors */ 
grub vinti16 t root ‘fags /* If the root is mounted readonly */ 


struct grub e820 mmap e820 map[(0x400 - 0x2d0) / 20]; /* 2Q0 */ 


} _attribute ((packed)); 


在 结构 体 linux_kernel_params 中 ， 从 偏 移 0x1F1 处 ， 即 成 员 
setup_sects 处 ， 保 存 的 传统 的 16 位 引导 协议 的 数据 。 除 此 之 外 ， 结 构 体 
linux_kernel_params 中 保存 束 是 去 页 信息 了 ， 如 显示 相关 的 信息 、 内 存 
相关 的 信息 等 。 


GRUB 在 局 动 内 核 前 ， 将 创建 一 个 结构 体 linux_kernel_params 关 型 
的 变量 linux_params， 首 先 从 setup.bin 中 读 取 16 位 的 引导 数据 到 这 个 变量 


中 ， 代 码 如 下 : 


grub-2.00/grub-core/loader/i386/l1inux.c: 
static struct linux kernel params linux params,; 


static grub err t grub cmd linux (grub command t cmd attribute 
(UNGaed)}), nt arges char QTL 
人 
grub file t file = 0; 
struct linux kernel header lh; 
struct linux kernel params *params; 


file = grub file open (argv[0]) ; 


if (grub file read {file, &lh, sizeof (lh)) != sizeof (1h)) 
params = (struct linux kernel params *) &linux params; 


grub memset (params, 0, sizeof (*params)); 
grub memcpy (&params->setup sects, &lh.setup sects, 
SliZeof (lh) = OxlF1); 


ea * WEIOUGUUY wx L003 
Ct OO 


params->ext mem 
params->alt mem 


grub_cmd_linux 是 模块 linux 中 的 命令 linux 的 回调 函数 ， 跟 在 命令 
linux 后 的 第 一 个 参数 就 是 内 核 映 像 文 件 ， 因 此 ， 这 里 的 argv[0] 束 是 内 核 
映像 文件 。 函 数 grub_cmd_linux 从 内 核 映 像 的 开头 读 取 了 结构 体 
linux_kernel_header 大 小 的 一 块 数据 ， 结 构 体 linux_kernel_header 定 义 的 
就 是 传统 的 16 位 的 引导 数据 : 


grub-2.00/include/grub/i386/l1inux.h: 


A:» For the Linur/r386 Docot protocol version 2.10, wy 
struct linux kernel header 


人 


grub uints t oode2|0x01F1L = Ox0020 二 全 二 27 
grub uint8 t setup sects; /* The size of the setup in sectors */ 


grub uint64 t pref address; 
grub Winbt32 t Thit sizey 
} attribute  {((packed)); 


然后 ，grub_cmd_linux 将 其 复制 到 变量 linux_params 中 。 


GRUB 除 了 使 用 从 内 核 中 读 取 的 信息 ， 比 如 内 核 希 望 加 载 的 地 址 ， 
也 将 实际 加 载 的 情况 〈 比 如 initramfs 加 载 的 位 置 ) 填充 到 变量 
linux_params 中 。 另 外 ，GRUB 还 要 按照 32 位 启动 协议 规定 ， 检 测 零 页 
定义 的 信息 ， 填 充 到 变量 linux_params 中 。 比 如 在 上 面 列 出 的 函数 
grub_cmd_linux 的 代码 片段 中 设置 linux_kernel_params 中 的 ext_mem 和 
alt_mem 等 。 再 举 一 个 典型 的 例子 ， 在 引导 Linux 内 核 前 ，GRUB 会 将 探 
测 到 的 内 存 的 信息 记录 在 变量 linux_params 中 : 


grub-2.00/grub-core/loader/i386/1inux.c: 


tacte geod re t Wb Din bool (vord} 


( 


if (grub e820 add region (params->e820 map, &e820 num, 
addr, size, e820 type)) 


在 内 核 中 ， 引 导 信 筷 定 义 的 数据 结构 如 下 : 


linux-3.7.4/arch/x86/include/asm/bootparam.h: 
struct setup header { 

 u8 BetUup..SecCtss 

ul6 root flags; 


} _ attribute ((packed)); 


struct boot params { 


struct screen info screen info,; /* Ox000 */ 
struct setup header hdr; /* setup header */ /* 0X1f1 */ 
struct e820entry e820 map [E820MAX]; /* Ox2d0 */ 


其 中 ， 结 构 体 setup_header 中 记录 的 束 是 传统 的 16 位 引导 信息 ， 
构 体 boot_params 对 应 于 GRUB 中 的 结构 体 linux_kernel_params， 即 记录 
的 是 传统 的 16 位 的 引导 信息 和 零 页 信息 。 在 初始 化 时 ， 内 核 会 将 GRUB 
准备 好 的 这 些 信息 复制 到 内 核 的 地 址 空间 中 ， 代 码 如 下 : 


linux-3.7.4/arch/x86/kernel/head 32.S: 
ENTRY (startup 32) 


movl1 S$pal(lboot params),%Sedi 

mov] $ (PARAM SIZE/4), Secx 

G1 

rep 

movsl 

movl palboot params) + NEW CL POINTER, %esi 
andl] %esi,%Sesi 

Jj 下 # No command line 
movl1 spalboot command line),%edi 
mov1 $ (COMMAND LINE SIZE/4),%ecx 
rep 

movsl 


内 核 重复 调用 汇编 指令 movsl 进 行 复 制 。 复 制 的 源 寄 存 堪 esi 在 


GRUB 中 局 动 内 核 前 设置 指 癌 jinux_kernel _ params 对 月 ， 目 的 地 址 是 内 
核 中 定义 的 结构 体 boot_params 类 型 的 变量 boot_params。 


如 果 用 户 通 过 GRUB 辣 内 核 传递 了 参数 ， 即 我 们 所 说 的 grub.cfg 中 的 
命令 行 参数 ， 则 GRUB 将 这 些 参数 保存 在 一 块 内 存 中 ， 并 设置 引导 参数 
结构 体 中 的 字段 cnmnd_line_ptr 指 向 这 块 内 存 ， 内 核 也 要 将 这 些 参数 从 

GRUB 复 制 到 内 核 。 


2. 加 载 内 核 及 initramfs 


理解 了 引导 协议 后 ， 接 下 来 看 看 GRUB 是 如 何 加 载 内 核 以 及 
initramfs 到 内 存 的 。 


模块 jnux 初 始 化 时 注册 了 两 个 依 令 ， 一 个 是 命令 linux， 万 外 一 个 是 
initrd。 命 令 linux 的 作用 是 加 载 Linux 内 核 ， 其 对 应 的 回调 函数 是 
grub_cmd_linux; 命令 initrd 的 作用 是 加 载 initramfs， 其 对 应 的 回调 函数 
是 grub_cmd _initrd， 代 码 如 下 : 


grub-2.00/grub-core/loader/i386/l1inux.c: 


GRUB MOD INIT (linux) 


人 


cmd linux = grub register command ("linux", grub cmd linux, 
Us "Loag LIne "1 
cmd initrd = grub register command ("initrd", grub cmd initrd, 


Dy Od ENE 
my mod = mod; 


} 


(1) 加 载 内 核 


前 面 提 到 过 ， 在 32 位 引导 协议 下 ， 内 核 的 实 模 式 部 分 已 经 退化 为 仅 
负责 承载 引导 协议 ， 其 功能 部 分 已 经 被 GRUB 取 代 了 ， 所 以 实 模 式 部 分 
无 须 再 加 载 到 内 存 了 。GRUB 只 需 将 内 核 的 保护 模式 加 载 到 内 存 即 可 ， 
相关 代码 如 下 : 


grub-2.00/grub-core/1loader/i386/1inux.c: 


01 static void *prot mode mem; 
02 static grub addr t prot mode target,; 


03 

64 statie grob err tt grub cud Tm (53 

05 { 

06 和 

07 grub uinté64 t preffered address = GRUB LINUX BZIMAGE ADDR.; 
08 人 

09 setup sects = lh.setup sects; 

10 

Ee real size = Setup sects << GRUB DISK SECTOR BITS; 

12 prot file size = grub file size (file) - real size - 

3 GRUB DISK SECTOR SIZE,; 

14 3 

了 if (grub le to _ cpul16 (lh.version) >= 0x020a) 

16 { 

汪汪 es 

18 if (relocatable) 

29 preffered address = grub le to cpu64 (lh,.pref address); 
20 else 

Rl preffered address = GRUB LINUX BZIMAGE ADDR:; 

22 } 

3 i 

24 if (allocate pages (prot size, &align, min align, 

25 relocatable, preffered address)) 

26 

< params->code32 start = prot mode target + lh.code32 start 
28 - GRUB LINUX BZIMAGE ADDR; 

2 


30 grub file seek (file, real size + GRUB DISK SECTOR SIZE); 


3 党 

32 len = prot file size; 

33 if (grub file read (file, prot mode mem, len) != len && ...) 
34 

35 |} 


在 讨论 函数 grub_cmd_linux 前 ， 首 先 解 释 代 但 中 出 现 的 两 个 容 多 混 
清 的 变量 一 一 prot_ mode_mem 和 prot_ mode_target， 见 代码 第 1 行 和 第 2 
行 。 这 两 个 变量 很 容易 让 人 困惑 ， 但 是 仔细 观察 它们 的 变量 类 型 可 以 友 
现 ，prot_mode_mem 是 指 同 一 块 内 存 的 指针 ， 所 以 读 写 内 存 操作 应 该 使 
用 这 个 指针 。 而 prot_ mode_target 记 录 的 仅仅 是 一 个 内 存 地 址 ， 典 型 的 用 
作 跳 图 指 令 的 操作 数 。 比 如 跳 攀 到 内 核 的 体 护 模 陈 部 分 时 ， 指 令 jmp 后 





接 的 操作 数 是 内 存 地 址 ， 而 不 应 使 用 指 回 内 存 的 指针 。 
函数 grub_cmd_linux 执 行 的 主要 操作 如 下 : 


1) 既然 准备 将 内 核 映 像 加 和 载 到 内 存 ， 函 数 grub_cmd_linux 和 有 和 完 确 害 
内 核 希 望 加 载 的 地 址 ， 见 代码 第 15~22 行 。 以 大 于 0x020a 版 本 的 引导 协 
议 为 例 ， 如 采 内 核 文 持 重 定位 ， 那 么 GRUB 将 从 引导 协议 中 读 取 的 
pref_address 作 为 内 核 加 载 的 位 置 。 否 则 ， 将 内 核 加 载 到 位 置 
GRUB_LINUX_BZIMAGE_ADDR， 该 宏 在 GRUB 中 定义 为 1IMB: 


grub-2.00/include/grub/i386/1inux.h: 


Hdefine GRUB LINUX BZIMAGE ADDR OXxXl100000 


2) 傅 定 了 了 加载 地 址 后 ，grub_cmd_linux 调 用 疯 数 allocate_pages 为 内 
核 映 像 分 配 内 存 ， 见 代码 第 24~25 行 。 同 时 ， 函 数 allocate_pages 设 置 指 
针 prot_ mode_mem 指 癌 为 内 核 分 配 的 内 存 ， 而 将 该 内 存 的 地 址 记录 在 变 


量 prot_ mode_target 中 。 


3) 函数 grub_cmd_linux 也 将 内 核 加 载 的 物理 地 址 ， 即 变量 
prot_mode_target 的 值 ， 记 录 在 引导 参数 的 成 员 code32_start 中 ， 见 代码 
第 27~28 行 。 后 面 司 动 内 核 时 的 跳 较 命令 将 以 code32_start 记 录 的 物理 地 
址 作为 操作 数 。 这 里 ，GRUB 的 开 友 者 们 应 该 是 考虑 了 某 些 特殊 情况 ， 
为 针对 我 们 的 具体 情况 ，setup.bin 中 的 code32_start 定 义 为 1MB: 


linux-3.7.4/arch/x86/boot/header.s: 


code32 start: # here loaders can put a different 
# start address for 32-bit code. 
. ] ong 0x100000 # Ox100000 = default for big kernel 


而 宏 GRUB LINUX BZIMAGE ADDR 也 是 IMB， 所 以 
lh.code32 start 和 GRUB LINUX BZIMAGE ADDR 是 相互 抵消 的 ， 变 量 


code32 start 的 值 束 是 prot_mode _target。 


4) 叭 备 好 了 内 核 映 像 加 载 的 内 存 后 ， 下 面 束 要 准备 从 使 盘 将 内 核 
了 映像 刻 入 内 和 存 。 因 为 实 模 陈 部 分 不 需要 加 载 ， 所 以 读 取 前 需要 将 映像 文 
件 的 指针 定位 到 保护 模 陈 。 显 然 只 有 内 核 知 着 目 己 的 实 模式 部 分 有 多 
大 ， 因 此 ，GRUB 需 要 从 承载 引导 协议 的 setup.bin 中 读 取 实 模式 部 分 的 
尺寸 。 


最 初 ， 内 核 为 了 支持 从 软盘 启动 ， 实 模式 部 分 分 为 bootsect 以 及 
setup 两 部 分 。 后 来 引导 统一 由 Bootloader 来 负责 ， 因 此 ， 内 核 从 2.6 版 本 
开始 把 bootsect.S 文 件 和 setup.S 文 件 合成 为 一 个 文件 
但 是 为 了 向 后 兼容 ， 引 导 协 议 中 记录 setup 部 分 大 小 的 成 员 setup_sectors 
依旧 被 内 核 设置 为 实 模式 部 分 的 矿 寸 再 减 去 一 个 面 区， 代码 如 下 所 未: 


header.S 文 件 。 





1inux-3.7.4/arch/x86/boot/tools/build.c: 


buf [Ox1i1|] = setup sectors-1; 


代码 中 第 9 行 束 是 读 取 setup 部 分 占据 的 山区 数 ， 第 11 行 是 将 而 区 转 
J 


5) 获取 了 实 模 式 部 分 的 大 小 后 ， 下 面 就 要 将 内 核 映 像 文件 定位 到 
保护 模式 开始 的 地 方 ， 第 30 行 代码 就 是 做 这 件 事 。 其 中 
GRUB_DISK_SECTOR._SIZE 束 是 在 setup 的 基础 上 再 增加 一 个 而 区 的 


bootsect。 


6) 在 最 后 恋 取 之 前 ， 还 有 一 件 事 要 做 ， 那 陨 是 确定 保护 模式 部 分 
的 尺寸 。 一 旦 确定 了 实 模 式 部 分 的 大 小 ， 你 护 模 式 的 尺寸 束 非 常 容易 计 
算 了 ， 即 整个 映像 的 尺寸 减 去 实 模式 的 尺寸 〈 包 括 setup 部 分 和 bootsect 
部 分 ) ， 束 是 保护 模式 的 大 小 ， 见 代码 第 12~13 行 。 


7) 一 切 惑 结 ， 第 33 行 代码 加 载 内 核 。 此 时 ，GRUB 已 经 加 载 了 
动 硬盘 和 文件 系统 的 模块 ， 所 以 ，GRUB 不 再 是 通过 BIOS 中 断 ， 而 是 通 
过 目 有 身 的 文件 系统 驱动 提供 的 接口 grub_file_read 访 取 的 内 核 映 像 。 


(2) 加 载 initramfs 


与 加 载 内 核 奖 似 ， 命 令 initrd 对 应 的 回调 函数 grub_cmd_initrd 首 先 确 
定 initramfs 的 加 载 地 址 ， 为 initramfs 分 配 好 内 存 。 然 后 调用 GRUB 中 的 文 
件 系 统 驱 动 提 供 的 接口 grub_file read 从 硬盘 加 载 initramfs。 相 关 代 码 如 
下 : 


grub-2.00/grub-core/loader/i386/l1inux.c: 


0 atatre yroab, rr t gy md Htrg bes od 


G2 1 

03 po 

04 if (grub le to cpulé6 (linux params .version) >= 0x0203) 
05 { 

06 addr max=grub cpu to le32(linux params.initrd addr max) :; 
O07 

08 } 

09 else 

10 addr max = GRUB LINUX INITRD MAX ADDRESS ; 

CS 和 

12 addr min = (grub addr 七 ) prot mode target + prot init space 
3 + page align (size); 

14 

15 /* Put the initrd as high as possible, 4KiB aligned. */ 
16 addr = (addr max - size) & ~OXxFFF; 

二 

18 err = grub relocator alloc chunk align (relocator, &ch， 
19 addr min, addr, size, 0x1000, 

20 GRUB RELOCATOR PREFERENCE HIGH, 1); 

有 二 Re 

22 initrd mem = get virtual current address (ch),， 

二 initrd mem target = get physical target address (ch); 

24 i 

2 ptr = initrd mem; 

26 for (i = 0; i < nfiles; 1i++) 

27 { 

SR 

BF if (grub file read (files[i], ptr, cursize) != cursize) 
30 

31 } 

3 时 

33 linux params.ramdisk image = initrd mem target; 

34 linux params.ramdisk size = size; 

3 5 

36 } 


函数 grub_cmd_initrd 执 行 的 主要 操作 如 下 : 


1) grub_cmd_initrd 首 先 要 确定 initramfs 加 载 的 位 置 ， 见 代码 第 4~13 
行 。 从 引导 协议 0x0203 上 把 本 开始 ， 内 核定 义 了 加 载 initramfs 的 上 限 ， 以 
Linux 内 核 3.7.4 版 本 为 例 ， 其 规定 的 initramfs 的 上 限 为 0x7fffffff: 


linux-3.7.4/arch/x86/boot/header.s: 


ramdisk max: Jong Ox7ftttttt 


如 果 引 导 协 议 小 于 这 个 版 本 ， 则 GRUB 只 需 白 己 作 主 即 可 ，GRUB 
将 initramfs 加 载 的 上 限 设 置 为 
GRUB LINUX INITRD MAX ADDRESS: 


grub-2.00/include/grub/i386/1inux.h: 


#defIine GRUB LINUX INITRD MAX ADDRESS OX37FFEFFF 


而 对 于 下 限 ， 内 核 没 有 要 求 。 但 是 根据 代码 可 见 ，GRUB 将 
initramfs 加 载 在 内 核 映像 之 后 。 


疯 数 grub_cmd_initrd 调 用 消 数 grub_relocator_alloc_chunk_align 在 
这 个 范围 内 找 一 个 合适 的 位 置 ， 见 代码 第 18~20 行 。 和 根据 传 给 函数 
grub_relocator_alloc_chunk_align 的 参数 
GRUB_RELOCATOR_PREFERENCE_HIGH 可 见 ，GRUB 采 用 的 策略 是 
尽 可 能 的 将 initramfs 加 载 到 高 地 址 处 。 


为 initramfs 分 配 完 内 存 之 后 ，grub_cmd_initrd 将 指针 initrd_mem 指 向 
为 加 载 initramfs 分 配 的 内 存 ， 并 将 这 块 内 存 的 物理 地 址 记录 到 变量 
initrd_mem_target 中 ， 见 代码 第 22~23 行 。 这 两 个 变量 与 前 面 讨论 加 载 内 
核 时 见 到 的 变量 prot_ mode_mem 和 prot_ mode_target 类 似 。 最 后 这 个 内 存 


地 址 是 要 分 享 给 内 核 的 ， 当 然 不 能 将 GRUB 中 的 一 个 内 存 指针 传递 给 内 
核 了 。 


3) 确定 了 地 址 ， 并 分 配 了 内 存 后 ， 骆 Ps cmd_initrd 调 用 
grub_file_read 将 initramfs 加 载 到 内 存 initrd_mem 人 处 。 这 里 GRUB 考 虑 了 可 
能 存在 多 个 initrd 的 情况 ， 所 以 有 个 for 循 坏 。 


4) 最 后 ，GRUB 将 initramfs 的 尺寸 、 加 载 的 位 置 记录 到 引导 参数 
中 ， 供 内 核 寻找 initramfs 时 使 用 ， 见 代码 第 33~34 行 。 这 里 ， 我 们 看 到 ， 
传递 给 内 核 的 initramfs 的 加 载 地 址 束 是 前 面 分 配 的 内 存 的 物理 地 址 


initrd_mem_target。 
3. 将 控制 权 交 给 内 核 


在 加 载 完 内 核 映 像 和 initramfs 后 ，GRUB 完 成 了 其 作为 操作 系统 加 
载 妖 的 使 命 ， 其 将 跳 转 到 加 载 的 内 核 映 像 ， 将 控制 权 交 给 内 核 。 相 关 代 
伺 如 下 : 


grub-2.00/grub-core/loader/i386/linux.c: 


01 static grub err 士 grub linux boot (void) 


02 1 

03 Hg 

04 params = real mode mem; 

05 

06 *params = linux params,; 

O07 i 

08 state.esli = real mode target:; 

09 state.esp = real moae target. 

10 state.eip = params->Ccode32 start; 
11 returr grab relocator32 boot (relocator: Btate, D0): 
1 | 


基本 上 ，GRUB 是 运行 在 你 护 模 式 的 ， 只 有 在 使 用 BIOS 时 才 切 换 到 
实 模式 ， 所 以 记录 引导 参数 的 全 局 变量 linux_params 的 位 置 是 随机 的 。 
因此 ， 在 局 动 内 核 前 ，GRUB 在 传统 的 低 端 内 存 中 申请 了 一 块 区 域 ， 将 
引导 参数 放置 到 传统 的 实 模 式 占 据 的 位 置 。 函 数 grub_linux_boot 中 指 癌 

这 块 内 存 的 指针 是 real_ mode_mem， 并 将 这 块 内 存 的 物理 地 址 记录 在 变 
量 real_mode_target。 最 终 ， 在 跳 转 到 内 核 之 前 ，GRUB 会 将 
real_ mode _target 记 录 到 寄存 器 esi 中 ， 内 核 司 动 后 ， 将 从 寄存 堪 esi 记 录 
的 这 个 地 址 复制 引导 参数 。 


第 6 行 代码 就 是 将 变量 linux_params 的 值 复 制 到 这 块 内 存 区 域 。 


第 10 行 设置 了 指令 指针 的 地 址 为 code32_start， 我 们 在 讨论 加 载 内 核 
映像 时 已 经 见 到 了 code32_start， 其 就 是 内 核 保护 模式 加 载 的 地 址 。 最 
后 ， 函 数 grub_relocator32_boot 将 调用 函数 grub_relocator32_start 跳 转 到 
内 核 的 保护 模式 处 ， 代 码 如 下 : 


grub-2.00/grub-core/lib/i386/relocator32.8: 


01 #define CODE SEGMENT Ox10 

bp 

03 VARIABLE (grub relocator32 start) 

04 人 

05 RELOAD GDT 

06 i 

O07 .byte Oxea 

08 VARIABLE (grub relocator32 eip) 

09 . | ong 0 

1]0 .WOrd CODE SEGMENT 

11 

12 LOCAL (gdt ) : 

13 /* NULL. */ 

14 ,byte 0x00, Ox00, 0x00, 0x00, Ox00, 0x00, 0x00, 0x00 
15 

16 /* Reserved. */ 

有 ,byte Ox00, Ox00, Ox00, 0x00, 0x00, 0x00, 0x00, 0x00 
18 

19 /* Code segment. */ 

20 .byte OxFF, OXFF, Ox00, Ox00, Ox00, Ox9A, OxCF, 0x00 
21 

22 /* Data segment,. */ 

23 .byte OxFF, OXFF, Ox00, Ox00, Ox00, Ox92, OxCF, Ox00 


24 LOCAL (gdt end): 


上 上 面 代码 户 段 中 第 5 行 竣 载 gdt 寄 存 左 ，gdt 的 内 容 在 第 12~24 行 代 但 
中 定义 。 根 据 gdt 的 定义 可 见 ，gdt 中 定义 了 两 个 段 ， 一 个 是 代 人 码 段 ， 力 
外 一 个 是 数据 段 。 这 两 个 段 鸭 基 址 都 和 症 0(， 段 的 长 度 是 32 位 CPU 线性 地 
址 空间 的 范围 ， 即 4GB。 这 两 个 段 的 唯一 区 列 古 代码 段 是 只 读 的 ， 而 数 
据 段 具有 该 与 权限 。 


继续 向 下 看 第 7 行 代码 ， 其 中 有 一 个 字 节 的 "0xea"， 这 个 正 是 x86 指 
令 集 中 的 长 跳 转 指 令 之 一 的 操作 码 ， 如 表 5-1 所 示 。 


表 5-1 x86 jmp 指令 说 明 (部 分 ) 
操作 数 编 码 方式 (Op/En ) 描述 
长 跳 转 指令 ， 跳 转 地 址 直 
接 在 操作 数 中 给 出 





根据 表 5-1 可 见 ， 指 令 jmp 的 操作 数 是 48 位 的 ， 前 16 位 是 代码 段 CS 的 


内 容 ， 后 32 位 是 指令 指针 EIP 的 内 容 。 


显然 ， 上 述 代码 片段 中 跟 在 0xea 之 后 的 第 10 行 的 word 类 型 的 变量 就 
是 CS 段 的 内 容 ， 我 们 看 到 这 2 个 字 节 处 的 宏 CODE_SEGMENT 在 第 1 行 代 


码 处 定义 ， 值 为 0x10， 展 开 二 进 制 为 : 


QO001] 0U00 


在 你 护 模 式 下 ， 寄 人 存 磺 CS 中 保存 的 是 段 选择 子 〈Segment 


Selector) ， 其 格式 如 图 5-6 所 示 。 


1 了 aa 4 纪 


InNndex TI RPL 


图 5-6 上段 选 择 子 格式 


参照 图 5-6， 除 去 最 后 三 位 ， 那 么 CS 段 在 GDT 中 的 索引 束 是 二 进 制 
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的 10， 十 进 制 的 2。 而 GDT 表 的 下 表 从 0 开始 ， 所 以 第 2 项 正好 古代 但 


段 。 


第 9 行 的 long 类 型 的 变量 就 是 EIP 的 内 容 ， 这 个 值 是 在 函数 


grub_relocator32_boot 中 填充 的 ， 代 人 友 如 下 : 


grub-2.00/grub-core/lib/i386/relocator.c: 


Sab Err tt grus relocator3z Dont dns) 


| 


grub relocator32 eip = state.elip; 


看 人 到 "state.eip" 是 不 是 很 熟 释 ? 没 错 ， 它 古 在 疯 数 grub_linux_boot 中 
设置 的 ， 值 是 code32_start， 也 残 是 内 核 32 位 体 护 模式 开始 的 地 方 。 由 此 
可 见 ， 函 数 grub_relocator32_start 中 的 第 7~10 行 代码 ， 通 过 一 个 长 跳 转 ， 


GRUB 将 控制 权 交 给 了 和 内核。 


5.2 ”解压 内 核 


根据 构建 内 核 时 的 分 析 ， 我 们 知道 ， 内 核 的 保护 模式 部 分 包括 非 压 
绾 部 分 以 及 压缩 部 分 ， 压 缩 部 分 才 是 内 核 正常 运转 时 的 部 分 ， 而 非 压 绽 
部 分 只 是 一 个 过 各 ， 其 主要 作用 是 解压 内 核 的 压缩 部 分 ， 解 压 完 成 后 ， 


内 核 的 解压 绚 过 程 几经 演进 ， 现 在 的 解压 过 程 不 再 是 站 先 将 内 核 解 
压 到 另外 的 位 置 ， 然 后 再 合并 到 了 最 终 的 目的 地 址 。 而 是 采用 了 上 所 谓 的 融 
地 解压 〈in-place decompression) 方法 ， 和 内 核 解压 时 并 不 需要 解压 到 妃 
外 的 位 置 ， 从 而 避免 禾 关 其 他 部 分 的 数据 。 


以 不 可 重 定 位 的 内 核 的 解压 过 程 为 例 ， 其 解压 过 程 如 图 5-7 所 示 。 


Location loaded by bootloader 


es vmlinux. ps 


Physical vmMlinux 
Memory .bin.gz 


el Cp 
人 data 





A vmliniix. bin 


vmlinux 
.bin.gz 


es 


LOAD PHYSICAL ADDR 


Physical 
Memory 





z extract offset i — 
3 v 
和 
FS | In-place decompress buffer 
1 
vies 


1 
1 
f 
1 
"ps 
1 
1 1 


Physical 二 
Memory uncompressed kerne 


pm z output I len | 


LOAD PHYSICAL ADDR 
(where kernel runs from) 


图 5-7 不 可 重 定位 内 核 的 就 地 解压 过 程 


对 于 不 可 重 定 位 内 核 ， 最 终 解压 后 的 的 内 核 的 起 始 位 置 古 内 核 编译 
时 设 定 的 加 载 地 址 ， 即 LOAD_PHYSICAL_ADDR。 虽 然 解 压 的 方式 是 
束 地 解压 ， 但 是 为 了 安全 起 见 ， 解 压 过 程 所 二 要 的 内 存 空间 并 不 完全 等 
于 解压 后 内 核 占 据 的 空间 ， 而 是 还 预 留 有 那么 一 点 上 安全 空间 。 所 以 这 
个 解压 所 需 的 空间 ， 即 图 中 标明 的 "In-place decompress buffer" 的 长 度 是 
解压 后 内 核 的 长 度 z_output_len 加 上 这 个 预 留 的 安全 空间 。 


为 了 确保 在 解压 时 ， 读 取 的 位 置 永远 在 与 入 的 位 置 的 前 面 。 内 核 首 


先 移 动 到 这 个 解压 空间 的 最 后 。 那 么 内 核 如 何 才能 确保 移动 到 这 个 空间 
的 最 后 呢 ?” 内 核 只 需 从 LOAD PHYSICAL ADDR 向 后 移动 
z_extract_offset， 就 确保 了 内 核 映像 移动 到 了 这 个 解压 空间 的 最 后 。 


那么 z_extract_offset 以 及 图 5-7 中 的 几 个 数据 ， 包 括 解 压 后 内 核 的 长 
度 z_output_len 等 数据 ， 都 是 从 哪里 获取 的 呢 ? 这 些 数据 当然 是 压缩 内 
核 的 时 候 了 最 请 花 了 ， 因 此 这 些 早 已 在 内 核 编 详 时 ， 进 行 压 缩 时 吏 已 经 计 
算 好 了 ， 和 定义 在 内 核 映 像 中 : 


linux-3.7.4/arch/x86/boot/compressed/piggy.38: 


.SECtion ".rodata. .compressed", "a",@progbits 
‘gl1Sbl 二 1nput len 

=” li1nput len = 1721557 

‘lobl zz output len 

z Output len = 3421472 

“globl z extract offset 

z extract offset = OxlboO000 

‘globl z extract offset negative 

2 extract offset negative = -0xlb0000 

:globl input data, input data end 

input data: 

.jncbin "arch/x86/boot/compressed/vmlinux.bin.gz" 
input data end: 


piggy.S 中 定义 的 解压 内 核 时 需要 的 变量 包括 : 
1) z_input_len， 上 压缩 内 核 的 长 有 度 ， 即 vmlinux.bin.gz 的 长 度 。 
2) z_output len， 内 核 解 压缩 后 的 长 度 。 


3) z_extract_offset， 进 行 就 地 解压 前 ， 相 对 于 解压 后 的 位 置 ， 内 核 


映像 需要 问 后 移动 一 段 距离 ， 为 解压 留 出 空间 ， 避 人 免 解 压 的 内 核 窗 盖 了 
压缩 的 内 核 ，zZ_extract_offset 束 是 这 个 偶 移 的 大 小 。 


4) z_extract_offset_negative， 这 个 是 z_extract_offset 的 人 负数， 是 为 


了 编程 方便 定义 的 。 
5) input_data， 标 识 内 核 映 像 中 ， 压 缩 部 分 的 起 始 位 置 。 


在 解压 缩 后 ， 非 压缩 部 分 根据 需要 可 能 还 要 对 内 核 进行 重 定 位 符 
号 ， 然 后 跳 转 到 解压 后 的 内 核 的 入 口 startup_ 32。 接 下 来 ， 我 们 束 具 体 


讨论 一 下 这 个 过 程 。 


5.2.1 移动 内 核 映 像 


1. 人 确定 源 地 址 


前 面 讨论 GRUB 时 ， 我 们 看 到 虽然 GRUB 按 照 引 导 协 议 的 规定 ， 将 
内 核 保护 模式 部 分 加 载 的 地 址 ， 即 code32_start 写 入 了 引导 参数 中 ， 但 是 
只 有 内 核 的 “真正 ”部 分 投入 运行 时 ， 内 核 才 复制 GRUB 保 存在 低 端 内 存 
的 引导 参数 。 也 就 是 说 ， 这 个 临时 的 负责 解压 部 分 ， 并 没有 复制 GRUB 
保存 的 引导 参数 ， 因 此 ， 内 核 还 需要 自己 计算 映像 被 加 载 的 地 址 。 内 核 
使 用 下 面 的 代码 获得 当前 被 Bootloader 加 载 的 地 址 : 


linux-3.7.4/arch/x86/boot/compressed/head 32.8: 
ENTRY (startup 32) 


call 证 


1: “PoPpl ebp 


subl $l1b, Sebp 


这 里 冯 先 解释 一 下 代码 厂 段 中 的 1f。1 后 面 的 {表示 的 是 forward， 即 
以 该 条 指令 为 参照 ， 继 续 癌 前 来 寻找 1 这 个 标 写 ; 如 来 1 的 后 级 是 bp， 则 


意义 正好 与 此 相反 。 


call 指 令 执行 时 ， 首 先 会 将 该 调用 返回 后 执行 的 下 一 条 指令 的 地 址 
压 栈 ， 这 里 就 是 标号 1 标识 的 指令 运行 时 的 地 址 。 执 行 了 call 指 令 后 ， 程 
序 跳 转 到 标号 1 所 在 的 代码 行 处 执行 ， 标 号 1 所 在 行 的 代码 将 栈 顶 的 内 容 
弹出 到 寄存 器 ebp 中 。 而 此 时 栈 顶 的 内 容 恰 恰 是 执行 cal 调 用 前 CPU 压 入 
的 标号 1 处 的 指令 的 地 址 ， 也 就 是 说 ， 寄 存 器 ebp 中 保存 的 就 是 标号 1 标 
识 的 指令 在 运行 时 所 在 的 地 址 。 接 下 来 ， 减 去 标号 1 这 行 代码 相对 于 程 
序 开头 处 的 偏 移 ， 即 $1b， 就 获得 了 函数 startup_32 的 运行 时 地 址 。 而 函 
数 startup_32 就 是 内 核 开头 ， 换 句 话说， 就 是 获得 了 内 核 保护 模式 部 分 
被 GRUB 实 际 加 载 的 地 址 。 


这 段 代 但 执行 后 ， 和 寄存 葵 ebp 中 保存 的 殉 是 内 核 的 加 载 地 址 。 


2. 傅 定 目 的 地 址 


站 核 映 像 移动 的 目的 地 址 针对 内 核定 合 文 持 重 定位 需要 区 列 计 算 
(1) 内 核 和 被 编译 为 可 重 定位 


如 果 内 核 被 编译 为 可 重 定位 ， 理 论 上 内 核 映 像 被 加 载 的 地 址 就 可 以 
作为 最 终 的 解压 目的 地 址 。 但 是 出 于 效率 角度 的 考虑 ， 所 以 还 要 进一步 
检查 Bootloader 加 载 的 地 址 是 人 否 符合 内 核 的 对 齐 要 求 。 如 采 不 符合 要 
求 ， 那 么 还 要 按照 内 核 的 对 齐 要 求 修正 一 下 这 个 地 址 ， 然 后 再 将 其 作为 
最 终 的 内 核 解压 的 目的 地 址 。 代 码 如 下 所 示 : 


linux-3.7.4/arch/x86/boot/compressed/head 32.8: 


#1iftdef CONFIG RELOCATABLE 


mov]l Sebp, Sebx 
movl BP kernel alignment ($es1l), Seax 
decl eAax 
addl eax, Sebx 
notl] eax 
andl Teax, Sebx 
#else 
#endif 


/* Target address to relocate to for decompression */ 
addl 2 extract offset, $ebx 


在 上 面 代码 中 ，##f 代 人 码 块 的 目的 丈 是 进行 对 齐 修订 。 修 订 后 的 地 
址 ， 也 就 十 解压 内 核 的 目的 地 址 ， 你 存在 寄存 如 ebx 中 。 


然后 ， 将 内 核 解压 后 的 地 址 再 加 上 含 移 z_extract_offset， 了 最 后 寄存 


船 ebx 中 体 存 的 即 是 内 核 映 像 在 解压 前 应 该 移动 到 的 位 置 。 
如 栗 需 要 配置 一 个 可 重 定位 的 内 核 ， 则 可 按 如 下 步骤 进行 : 


1) 执行 make menuconfig， 出 现 如 图 5-8 所 示 的 界面 。 


[*] Enable LoadabLe module support ---> 
-*- Enable the block Layer ---> 


ye and features ---> 
Power management and ACPI options ---> 
Bus options (PCI etc.) ---> 





图 5-8 配置 可 重 定位 内 核 (1) 


2) 在 图 5-8 中 ， 选 择 且 单项 "Processor type and features"， 出 现 如 图 
5-9 所 示 的 界面 。 


[| ] kexec system call 
, | kernel crash dumps 


(0x1000000) Alignment vaLue to which kerne 
[ ] suppert for hot-pluggable CPUS 





图 5-9 配置 可 重 定位 内 核 (2) 


3) 在 图 5-9 中 ， 和 选择 "Build a relocatable kernel"。 


在 内 核 3.7.4 版 本 中 默认 对 齐 为 0x1000000， 当 然 也 可 以 通过 配置 内 


(2) 内 核 不 文 持 重 定位 


如 果 内 核 没 有 被 编译 为 可 重 定 位 ， 那 么 表明 内 核 不 允许 将 其 加 载 到 
其 他 位 置 ， 必 须要 加 载 到 LOAD PHYSICAL ADDR， 因 此 内 核 的 解压 


目的 地 址 就 是 LOAD _ PHYSICAL ADDR。 代 码 如 下 : 


linux-3.7.4/arch/x86/boot/compressed/head 32.S 
#ifdef CONFIG RELOCATABLE 


#else 
movl $5LOAD PHYSICAL ADDR, Sebx 
#endif 


/* Target address to relocate to for decompression */ 
addl $2 extract offset, %ebx 


然后 ， 将 解压 的 目的 地 址 偏 移 z_extract_offset， 最 后 ， 寄 和 存 右 ebx 中 
保存 的 即 是 内 核 映 像 在 解压 前 应 该 移动 到 的 位 置 。 


变量 LOAD_PHYSICAL ADDR 是 内 核 编译 时 指定 的 加 载 地 址 。 其 
定义 如 下 : 


linux-3.7.4/arch/x86/include/asm/boot.h 
#define LOAD PHYSICALDL ADDR ( (CONFIG PHYSICAL START \ 


+ (GONEIG PHYSICHNE ALIGN = 工 ) %\ 
& (CONEIG PHYSICAL ALIGHN = 1)) 


可 见 ，LOAD PHYSICAL ADDR 就 是 内 核 配 置 选项 


CONFIG_PHYSICAL START 按照 内 核 的 对 齐 要 求 修 订 后 的 值 。 


由 这 里 可 见 ， 即 使 内 核 不 允许 重 定 人 位， 那么 事实 上 最 后 内 核 解 压 后 
的 地 址 也 是 符合 内 核 的 对 章 要 求 的 ， 因 为 这 里 已 经 对 编 详 时 指定 的 加 载 
地 址 进行 了 对 并 处 理 。 


内 核 3.7.4 版 本 的 默认 加 载 地 址 是 0x1000000， 用 户 可 以 通过 配置 指 
定 内 核 加 载 的 物理 地 址 ， 步 又 如 下 : 


1) 执行 make menuconfig， 出 现 如 图 5-10 所 示 的 界面 。 


[*] Enable loadable module support ---> 
-*- Enable the block Layer ---> 


Processor type and features ---> 
Power management and ACPI options ---> 
Bus options {PCI etc.) ---> 





图 5-10 更 改 内 核 加 载 地 址 (1) 


2) 在 图 5-10 中 ， 选 择 亲 单项 "Processor type and features"， 出 现 如 图 
5-11 所 示 的 窜 面 。 


[| ] Kexec system call 
po kernel crash dumps 
ox10000006) Physical address Where the kernel ts Loaded (NEW) 





[ ] Build a relocatable kernel 


图 5-11 更 改 内 核 加 载 地 址 (2) 


3) 设置 内 核 加 载 地 址 依赖 于 CONFIG_EXPERT 或 者 
CONFIG_CRASH_DUMP， 所 以 如 果 要 修改 内 核 依赖 地 址 ， 必 须 选择 这 
两 项 中 的 一 项 。 可 以 在 图 5-11 中 选中 "kernel crash dumps"， 妈 
CONFIG_CRASH_DUMP， 在 该 配置 项 的 下 面 即 可 出 现 修 改 内 核 加 载 地 
址 的 配置 项 "Physical address where the kernel is loaded"， 修 改 这 一 项 的 值 
即 可 达到 修改 内 核 加 载 地 址 的 目的 。 


3. 移 动 内 核 映 休 


源 地 址 和 目的 地 址 确定 后 ， 内 核 映 像 束 开始 了 移动 过 程 ， 代 人 码 如 
下 : 


linux-3.7.4/arch/x86/boot/compressed/head 32.8: 


01 pushl 省 已 号 工 

02 leal ( bss-4) (ebp), %esl 
03 1 仿 扣 证 ( bss-4) (Sebx), Sedl 
04 mv $s( bss = startup 32), $ecx 
05 shr] S$2, Secx 

06 stq 

O07 rep movasl 

08 cld 

O09 PoOpPl Tesl 

I 浊 i 

汪汪 leal relocated ($ebx), Seax 
12 Jmp *$®eax 

13 ENDPROC (startup 32) 

1 4 

15 .text 


16 relocated: 


在 上 述 代码 中 ， 符 号 _bss 在 链接 vmlinux.bin 时 定义 在 bss 段 的 开头 。 
BSS 段 被 链接 在 vmlinux.bin 的 最 后 ， 而 它 在 内 核 映 像 文件 中 并 不 占据 衬 
闻 ， 因 此 ， 符 号 _bss 的 地 址 就 是 内 核 保护 模式 的 末尾 。 


寄存 器 esi 是 保存 移动 指令 的 源 地 址 的 ， 第 2 行 代码 就 是 设置 这 个 寄 
存 如 的 伸 ， 表 达 式 : 


( bss-4) (ebp) 


展开 后 如 下 : 


ebp + bss - 4 


而 寄存 需 ebp 中 保存 的 值 是 内 核 加 载 的 地 址 ， 所 以 "%ebp+_bss" 即 为 
内 核 的 末尾 地 址 ，-4 的 目的 当然 古 为 第 一 次 复制 留 出 4 字 节 的 空间 。 


类 似 的 ， 第 3 行 代码 是 设 首 你 存 移动 指令 的 目的 地 址 的 寄存 占 edi。 
因为 寄存 如 ebx 中 保存 移动 后 的 内 核 地 址 ， 所 以 edi 中 的 值 最 后 设置 为 移 
动 后 的 内 核 的 末尾 地 址 ， 并 为 第 一 次 复制 留 出 4 学 节 的 空间 。 


同 理 ， 读 者 回忆 一 下 vmlinu.bin 的 构建 ， 链 接 脚 本 指定 将 函数 
startup_32 链 接 在 vmlinux.bin 的 最 开 涉 ， 因 此 ， 在 第 4 行 代 人 码 中 ，"_bss- 
startup_32" 就 是 内 核 以 字 节 为 单位 的 长 度 了 。 因 为 ， 一 次 复制 4 字 节 ， 所 
以 代表 移动 次 数 的 寄存 器 ecx 需 要 右 移 两 位 〈 即 除 以 4) 。 


第 6 行 代 码 中 ， 指 令 std 的 目的 是 表示 每 移动 一 次 ，esi 和 edi 分 别 减 一 
(4 字 节 ) ， 也 束 是 说 复制 是 从 内 核 尾 部 问 着 涉 部 的 方 同 复制 。 


内 核 移 动 结束 后 ， 显 然 需 要 童 新 站 载 指令 指针 EIP 的 值 ， 跳 转 到 移 
动 后 的 内 核 中 继续 执行 。 这 里 是 通过 jmp 指 令 修 改 指 令 指 针 的 ， 即 第 12 
行 代码 ， 这 条 语句 的 目的 是 跳 转 到 移动 后 的 内 核 映 像 中 标 写 relocated 处 
继续 执行 。 


5.2.2 ”解压 


完成 内 核 移动 后 ， 下 一 步 融 要 开始 解压 内 核 了 了， 代码 如 下 : 


linux-3.7.4/arch/x86/boot/compressed/head 32.8: 


01 leal 2 extract offset negative (Sebx), ®%ebp 

02 /* push arguments for decompress kernel: */ 
03 pushl Sebp /:* Output address */ 

04 pushl sz input len /* input len */ 

05 leal input data (ebx), Seax 

06 pushl 委 马 忌 式 /* input data */ 

O07 leal boot heap ($ebx), Seax 

08 Pushl 省 已 己 切 /* heap area */ 

09 pushl Sesi /* real mode pointer */ 

10 局 站 上 decompress kernel 


我 们 看 到 ， 在 head_32.S$ 中 ， 调 用 函数 decompress_kernel 和 解压 内 核 ， 
见 第 10 行 代码 。decompress_kernel 是 用 C 语 言 编写 的 ， 其 轴 数 定义 在 


misc.c 中 : 


linux-3.7.4/arch/x86/boot/compressed/misc.c: 


asmlinkage Void decompress kernel (void *rmode, memptr heap, 
unsigned char *input data, 
unsigned long input len, 
unsigned char *output) 


我 们 结合 函数 decompress_kernel 来 看 看 文件 head_32.S 中 的 几 个 关键 


) 图 数 decompress_kernel 的 最 后 一 个 参数 output 有 是 内 核 解压 的 目的 
地 址 ， 这 个 应 该 是 第 一 个 压 栈 的 参数 ， 见 head_32.5 代 人 码 第 1~3 行 。 在 前 
面 讨论 移动 内 核 时 ， 我 们 看 到 ， 寄 存 右 ebx 中 保存 的 是 内 核 移 动 后 的 地 
址 ， 而 根据 piggy.S，z_extract_offset_negative 就 是 z_extract_offset 的 负 
数 ， 所 以 表达 式 


2 extract otfset negative ($ebx) 
相当 于 

ebx = Zz extract oftfset 
参照 图 5-7， 显 然 ， 这 束 古 内 核 解压 的 目的 地 址 。 


) 函数 decompress_kernel 的 参数 input_len 表 示 压 缩 的 内 核 映 像 的 长 
上 度 ， 这 个 变量 对 恬 piggyv.S 中 定义 的 zZ_input len， 这 是 第 2 个 需要 压 栈 的 
参数 ， 见 head_32.S 代 码 片 段 第 4 行 


) 国 数 decompress_kernel 的 NE 压缩 的 内 核 映 像 的 
开头 ， 对 应 piggy.S 中 定义 的 input_data， 这 是 第 3 个 需要 压 栈 的 参数 ， 见 
head_32.S 代 码 卢 段 第 5 行 


具体 解压 算法 ， 我 们 不 再 分 析 ， 读 者 如 果 有 兴趣 ， 可 目 行 疯 读 代 
位 。 


5.2.3 重 定位 


根据 下 和 面 的 内 核 链接 脚本 片段 可 见 ， 内 核 中 指令 和 数据 的 运行 时 地 
址 是 假定 内 核 被 解压 到 物理 地 址 LOAD _PHYSICAL ADDR 处 而 分 配 
的 ， 我 们 称 这 个 假定 地 址 为 理论 加 载 地 址 。 


ljnux-3.6.6/arch/x86/kernel /vmlinux.lds.s: 


SECTIONS 


| 


#1ifdef CONFIG X86 32 

: = LOAD OFFSET + LOAD PHYSICAL ADDR; 

phys startup 32 = startup 32 - LOAD OFFSET; 
#else 


} 


如 果 内 核 被 配置 为 可 重 定 位 的 ， 那 么 尽管 内 核 在 引导 协议 中 会 将 布 
望 加 载 的 地 址 (pref_address) 设置 为 LOAD_PHYSICAL _ADDR， 如 下 
代码: 


linux-3.7.4/arch/x86/boot/header.s: 


pref address: .quad LOAD PHYSICAL ADDR # preferred load addr 


但 是 内 核 并 不 能 确保 Bootloader 将 内 核 一 定 加 载 到 内 核 建 议 的 


LOAD PHYSICAL ADDR。 如 果 Bootloader 实 际 加 载 地 址 与 理论 加 载 地 
址 不 同 ， 那 么 内 核 需 要 进行 重 定位 。 


对 于 可 重 定 位 内 核 ， 内 核 目 身 包 含 一 个 工具 relocs。 在 编译 内 核 的 


上 忆 


最 后 ，relocs 将 vmlinux 中 需要 重 定 位 的 从 号 导出 ， 写 入 vmlinux.relocs， 
然后 build 将 其 链接 在 内 核 的 最 后 。 简 里 来 讲 ，vmlinux.relocs 就 是 一 个 数 


组 ， 每 一 个 元 系 记 录 的 就 是 一 个 需要 修订 的 位 置 。 


head_32.S 中 重 定 位 的 代码 片段 如 下 : 


linux-3.7.4/arch/x86/boot/compressed/head 32.3S: 


01 #1if CONFIG RELOCATABLE 


leal z Output len(%ebp), %edi 


movl Sebp, %ebx 
subl SLOAD PHYSICAL ADDR, $%ebx 


jz 2f /* Nothing to be done if loaded at compiled addr. */ 


#endif 


subl S44 Sed 

movl (Sed1i), Secx 

testl Secx, Secx 

于 党 浊 玉 

addl Sebx, - PAGE OFFSET (%ebx, %ecx) 
Jmp 1b 

Jmp *$%ebp 


该 代码 片段 执行 的 主要 操作 如 下 : 


1) 首先 珊 要 判断 内 核 是 售 需 要 重 定 位 ， 见 代码 第 5~7 行 。 在 前 面 为 
解压 缩 函 数 准备 参数 时 ， 寄 存 器 ebp 中 记录 了 内 核 解压 后 的 地 址 ， 所 以 
这 两 行 代码 的 目的 就 是 比较 内 核 解 压 后 的 地 址 与 内 核 理论 加 载 地 址 


LOAD_PHYSICAL_ADDR。 如 果 相 同 ， 那 么 无 须 进 行 童 定位， 直接 跳 
到 标志 2 处 ， 也 就 是 跳 过 了 标号 1 和 标号 2 之 间 的 重 定 位 代码 。 


2) 如 末 需 要 重 定位 ， 那 么 首 驳 需要 找到 重 定 位 表 vmlinux.relocs， 
见 第 3 行 代码 。 在 编 详 时 ， 内 核 构 建 脚本 将 香 定 位 表 链 接 在 映像 的 最 
后 ， 而 Z_output_len 代 表 内 核 解压 后 的 长 度 ， 因 此 ，%ebp+z_output_len 
指 回 的 就 是 重 定位 表 的 末尾 。 


3) 找到 重 定位 表 后 ， 束 可 以 进行 重 定位 了 ， 代 但 第 9~14 行 从 后 回 
前 遇 历 重 定 位 表 ， 逐 项 进行 修订 。 其 中 第 9~12 行 代码 判断 重 定位 是 否 已 
经 完成 ， 重 定位 表 以 0 开头 ， 所 以 ， 当 示 一 项 的 值 为 0 时 ， 融 说 明 已 经 到 
了 重 定 位 表 的 表 头 ， 所 有 需要 重 定 位 的 条 目 己 经 完成 。 有 其 体 的 修订 算法 
非常 卫 接 ， 就 是 在 每 个 修订 的 位 置 ， 加 上 内 核实 际 加 载 的 地 址 与 理论 加 
载 地 址 的 看 值 ， 见 第 13 行 代码 。 但 十 这 行 指 令 的 操作 数 使 用 了 相对 复 林 
一 扩 的 寻 址 方式 ， 而 且 两 次 出 现 了 寄存 如 ebx， 所 以 容易 让 人 困惑 。 


自 完 来 看 一 下 寄存 上 进 ebx 的 值 。 事 实 上 ， 在 执行 第 6 行 代 人 码 时 ， 内 核 
实际 的 加 载 地 址 与 理论 加 载 地 址 的 牵 值 已 经 个 你 和 存 到 了 寄存 桌 ebx 中 。 
也 束 古 说 ， 用 来 修订 的 产值 已 经 准备 束 红 。 那 么 显然 ， 第 13 行 代码 中 指 
令 addl 的 第 二 个 操作 数 : 


- PAGE OFFSET (ebx, ecx) 


束 是 需要 修订 的 位 置 ， 我 们 将 其 展开 : 

EDXxX + 蔬 ECX - PAGE OQFFSET 
为 了 看 得 更 清楚 一 操 ， 我 们 换个 写法 : 

(Secx - PAGE OFFSET) + %ebx 


我 们 来 分 析 这 个 表达 式 ， 寄 存 器 ecx 就 像 一 个 局 部 变量 ， 临 时 存储 

重 定位 表 中 每 一 项 ， 即 需要 重 定位 的 位 置 ， 那 么 为 什么 要 从 ecx 中 人 刨 除 

”PAGE_OFFSET 呢 ? 这 个 问题 的 根源 束 在 于 重 定 位 表 vmlinux.relocs 中 
记录 的 修订 位 置 使 用 的 是 虚拟 地 址 。 


内 核 为 了 占据 3GB 以 上 的 进程 地 址 空间 ， 所 以 在 编译 时 ， 链 接 器 为 
每 个 符号 的 地 址 增加 了 3GB 的 偏 移 ， 也 束 是 这 里 的 _ PAGE_OFFSET。 
在 内 核 运行 时 ， 页 式 上 映射 会 将 这 个 逻辑 上 的 偏 移 消除 ， 将 符号 映射 到 真 


正 的 物理 地 址 。 


但 此 时 的 厂 烦 是 ，CPU 疝 未 开局 页 式 映 射 ， 而 且 GRUB 将 CPU 设置 
工作 在 平坦 内 存 模型 下 ， 段 基 址 都 为 0， 虚 拟 地 址 经 过 MMU 了 映射 后 ， 将 
原封 不 动 地 转换 为 物理 地 址 。 举 个 例子 ， 假 设 内 核 最 终 加 载 到 了 16MB 
处 ， 那 么 内 核 开 头 的 虚拟 地 址 是 0xc1000000， 假 设 这 里 需要 修订 ， 那 么 
重 定位 表 中 记录 的 修订 位 置 是 0xc1000000。 当 进行 重 定 位 时 ， 如 果 不 做 
任何 处 理 ， 这 个 地 址 经 过 MMU 转 换 后 的 物理 地 址 依然 为 0xc1000000， 


显然 多 了 3GB 的 偏 移 。 因 此 ， 重 定位 代码 需要 事先 将 这 个 偏 移 消 除 挥 。 
这 束 是 在 寄存 器 ecx 的 基础 上 再 减 去 _ PAGE_OFFSET 的 原因 。 


但 是 仅仅 减 去 _PAGE_OFFSET 还 不 够 ， 不 仅 修 订 位 置 处 的 内 容 需 
要 进行 修订 ， 修 订 位 置 本 映 也 发 生 了 变化 ， 如 图 5-12 所 示 ， 上 面 的 虚线 
表示 的 是 内 核 理 论 加 载 的 地 址 ， 下 面 的 实 线 表 示 的 是 内 核实 际 加 载 的 地 
址 。 
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图 5-12 重 定 位 位 置 的 变化 


因此 ， 修 订 位 置 本 吴 也 需要 进行 修订 。 修 订 位 置 本 丑 的 偏 移 束 是 内 
核 理 论 加 载 位 置 和 实际 加 载 位 置 的 差 值 ， 而 这 个 差 值 已 经 保存 在 寄存 丹 
ebx 中 ， 这 融 是 为 什么 修订 位 置 除了 减 去 _PAGE_OFFSET 外 ， 又 加 上 
ebx 的 原因 .。 


重 定位 完成 之 后 ， 跳 转 到 解压 后 的 内 核 起 始 地 址 处 继续 执行 ， 见 重 


定位 代 但 卢 段 中 的 第 18 行 。 


5.3 ”内 核 初 始 化 


虽然 操作 系统 的 功能 包括 进程 管理 、 内 存 管理 、 设 备 管理 等 ， 但 是 
操作 系统 的 终极 目标 是 创造 一 个 环境 ， 承 载 进 程 。 但 是 由 于 进程 运行 
时 ， 可 能 需要 和 各 种 外 设 打 区 直 ， 因 此 ， 操 作 系统 初始 化 时 ， 也 会 将 这 
些 外 设 等 子 系统 进行 初始 化 ， 这 也 寻 致 内 核 初 始 化 过 程 异 帅 复 杂 。 虽 然 
这 些 过 程 很 重要 ， 但 是 忽略 它们 并 不 妨碍 理解 操作 系统 的 本 质 。 本 节 我 
们 并 不 天 心 这 些 子 系统 的 初始 化 ， 比 如 USB 系 统 是 如 何 初始 化 的 ， 我 们 
只 围 线 进 程 来 讨论 内 核 相 关 部 分 的 初始 化 。 


5.3.1 初始 化 虚拟 内 存 


相对 于 单 任务 来 说 ， 多 任务 的 好 处 无 需 资 言 ， 但 是 多 任务 也 对 操作 
系统 扣 出 了 更 多 的 要 求 ， 其 中 一 个 主要 问题 就 是 如 何在 多 个 任务 间 互 不 
干扰 地 共享 同一 物理 内 存 。 正 如 Dennis DeBruler 说 过 的 经 典 的 一 句 话 : 
计算 机 科学 中 所 有 问题 部 可 以 通过 多 一 个 间接 层 来 解决 。 现 代 操 作 系 统 
设计 了 虚拟 内 存 机 制 支持 多 任务 。 


退 过 虚拟 内 存 机 制 ， 多 个 进程 之 间 束 可 以 和 平 共 圣 物理 内 存 。 每 个 
进程 部 有 了 目 己 独立 的 虚拟 地 址 空间 ， 感 觉 束 像 日 己 独占 物理 内 存 一 
样 。 在 余 一 个 进程 中 态 问 任何 地 址 都 不 可 能 访问 到 为 外 一 个 进程 的 数 


据 ， 这 使 得 任何 一 个 进程 由 于 执行 错误 指令 或 恶意 代 但 寻 致 的 非法 内 存 
访问 都 不 会 意外 改 与 其 他 进程 的 数据 ， 也 不 会 影响 其 他 进程 的 运行 ， 从 
而 保证 整个 系统 的 稳定 性 。 进 程 本 身 不 必 天 心虚 拟 地 址 是 如 何 映 射 到 物 
理 内 存 以 及 存储 在 物理 内 存 的 什么 位 置 ， 完 全 由 操作 系统 丛 其 打 理 。 


为 了 文 持 虚拟 内 存 ， 操 作 系 统 不 必 孤 军 奋 战 。 现 代 的 处 理 器 几乎 都 
从 硬件 的 角度 设计 了 支持 虚拟 内 存 的 机 制 ， 以 x86 架 构 为 例 ， 其 引入 了 
MMU 单 元 。 但 是 与 其 他 CPU 几 乎 全 部 采用 分 页 机 制 支 持 实现 虚拟 内 存 
不 同 ， 对 于 x86 体 系 架构 来 说 ， 由 于 历史 的 原因 ， 事 情 有 点 复杂 。 最 
人 急 ，8086 的 守 存 器 是 16 位 的 ， 可 以 寻 址 64KB 内 存 ， 为 了 在 不 改变 否 存 
器 和 指令 位 数 的 情况 下 文 持 更 大 的 寻 址 空间 ，Intel 的 工程 师 们 设计 了 一 
种 段 式 寻 址 机 制 。 后来， 为 了 同 后 兼容 ， 也 就 是 保证 为 更 早 的 体系 结构 
开 友 的 程序 依旧 可 以 在 新 的 体系 架构 上 运行 ， 在 后 续 的 x86 系 列 处 理 右 
上 ，Intel 保 留 了 段 式 寻 址 机 制 ， 而 且 不 能 关闭 段 式 机 制 。 因 此 ， 对 于 
x86 架 构 来 说 ， 虚 拟 内 存 问 物理 内 存 的 转换 需要 经 过 两 个 阶段 ， 如 图 5- 
13 所 示 。 
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图 5-13 ” x86 架构 虚拟 内 存 向 物理 内 存 转换 


1) 逻辑 地 址 转换 为 线形 地 址 。CPU 将 逻辑 地 址 发 送 给 MMU。 风 辑 
地 址 分 为 两 部 分 : 16 位 的 段 选择 子 和 32 位 的 段 内 偏 移 。 当 把 这 48 位 地 址 
传 给 MMU 时 ，MMU 中 的 分 段 蛙 元 根据 16 位 段 选 择 子 ， 从 GDT 表 中 获取 
对 应 段 ， 取 出 段 基 址 ， 再 加 上 逮 辑 地 址 中 的 32 位 的 偏 移 ， 就 形成 了 线性 
地 址 。 


2) 线形 地 址 转换 为 物理 地 址 。 分 段 单 元 将 线性 地 址 及 送 给 分 页 单 
元 ， 分 页 单元 通过 页 表 ， 将 线性 地 址 转换 为 物理 地 址 。 


通过 虚拟 内 存 ， 同 一 个 虚拟 地 址 可 以 映射 到 不 同 的 物理 内 人 存 。 这 也 
多 个 进程 共 圣 同一 个 物理 内 存 的 理论 基础 ， 如 图 5-14 所 示 。 
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图 5-14 虚拟 内 存 映 射 


显然 ， 为 了 文 持 MMU 进 行 地 址 转换 ， 操 a 作 系 统 需 要 为 MMUi 准 备 
GDT 以 及 页 表 ， 下 面 我 们 就 讨论 这 两 个 过 程 。 


1. 创 建 GDT 


分 段 机 制 是 x86 系 列 处 理 器 演变 发 展 过 程 中 同 后 兼容 的 产物 ， 更 重 
要 的 是 ， 页 式 映射 已 经 完全 可 以 非常 好 地 支持 虚拟 内 存 机 制 了 ， 除 了 增 
加 实现 的 复杂 度 ， 分 段 机 制 已 经 没有 存在 的 意义 了 。 除 了 IA 架 构 ， 其 他 
体系 结构 几乎 没有 使 用 段 机 制 的 。 但 是 为 了 向 后 兼容 ， 又 不 能 关闭 段 机 
制 ，IA 染 构 提 出 了 一 种 特殊 的 内 存 管理 模型 一 一 平坦 内 存 模型 (flat 
model) ， 如 图 5-15 所 示 。 
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图 5-15 平坦 内 存 模 型 


当 使 用 平坦 内 存 模 型 时 ， 所 有 上段 的 基 址 均 为 0， 段 长 为 线性 地 址 空 
间 的 整个 长 度 。 读 者 可 能 心 存 疑问 : 如 来 段 基 址 相同 ， 那 么 同一 进程 的 
不 同 段 之 间 的 地 址 是 否 会 发 生 重 辣 ?这 点 大 可 不 必 担 心 ， 昌 然 各 个 段 的 
段 基 址 都 从 0 开始 ， 但 是 在 编 详 时 ， 和 链接 可 会 通过 段 内 偏 移 控制 各 个 上 段 
的 内 容 不 会 彼此 上 复 兰 。 


平坦 内 存 模 型 束 像 功夫 中 的 太极 ， 将 分 段 这 个 “麻烦 ”化 解 于 无 形 。 
在 平坦 内 存 模 型 下 MMU 中 的 分 段 单元 对 地 址 的 变换 没有 任何 影响， 
编译 好 的 二 进 制程 序 中 的 偏 移 地 址 (或 者 称 为 虚拟 地 址 〉 完 全 等 同 于 线 
性 地 址 。 和 平坦 内 存 模 型 不 仅 人 简化 了 操作 系统 中 的 内 存 官 理 ， 而 且 也 大 大 
降低 了 纺 详 蔡 和 链 接 右 实现 的 复杂 上 度 。 


本 质 上 ， 平 坦 内 存 模 型 并 不 是 一 种 什么 特殊 的 模式 ， 只 是 你 护 模 式 
下 的 一 种 特例 而 已 ， 其 中 的 天 键 束 在 于 段 的 基 址 和 上 段 的 长 大 的 设置 。 在 
内 核 初 始 化 代码 中 ， 有 两 处 设置 并 加 载 了 GDT。 第 一 处 是 函数 
startup_32， 代 码 如 下 : 


linux-3.7.4/arch/x86/kernel/head 32 .3: 


01T ENTRY (startup 32) 


02 pi 

03 testb $(1<<6), BP loadflags (%esi) 

04 本 下 玄 浸入 

05 

06 lgdt Pa(boot gdt descr) 

Q7 A 

08 2: 

09 Way 

10 boot gdt descr: 

1 .Word BOOT DS+7 

到 .OnS boot gdt -=- BAGE OFFSET 

i 有 

14 ENTRY (boot gadt) 

45 Ll GD ENIRY BOUT Co 

16 .quad Ox00cf9a000000ffff /* kernel 4GB code at 0x00000000 */ 
| .quad Ox0O0cf92000000ffff /* kernel 4GB data at Ox00000000 */ 


内 核 首 先 检 查 引 导 协 议 中 的 loadflags 的 第 6 位 ， 妈 
KEEP_SEGMENTS 位 。 如 果 Bootloader 没 有 设置 这 一 位 ， 那 么 内 核 需 要 
重新 装载 各 个 段 寄 存 右 ， 包 括 GDT 寄 存 奉 gdtr， 第 6 行 代码 残 是 重新 设置 
GDT 寄 存 需 gdtr， 使 其 指 同 boot_gdt_descr， 而 boot_gdt_descr 中 又 包含 了 
从 写 boot_gdt。 我 们 来 看 一 下 内 核 中 的 这 两 个 从 号 的 值 : 


vita@baisheng:/vita/build/linux-3.7.4$ readelf -s vmlinux \ 

| grep boot gdt 
24312: cl1378d806 0 NOTYPE GLOBAL DEFAULT 13 boot gdt descr 
29580: cl378dc0 0 NOTYPE GLOBAL DEFAULT 13 Doot Gat 


这 两 个 符 扎 的 值 均 以 C 开 头 ， 有 显然 都 是 虚拟 地 址 了 。 但 是 ， 问 题 是 
此 时 CPU 疝 未 开局 分 页 ， 所 以 不 能 使 用 虚拟 地 址 寻 址 ， 而 只 能 使 用 物理 
地 址 寻 址 。 所 以 在 第 6 行 代码 中 ， 使 用 宏 pa 将 从 号 boot_gdt_descr 的 虚拟 
地 址 转化 为 物理 地 址 ， 稍 后 我 们 会 具体 讨论 这 个 宏 ， 其 主要 作用 惑 古 将 
从 号 中 的 3GB 偏 移 去 挥 。 同 理 ， 注 意 第 12 行 代码 ， 在 使 用 符号 boot_gdt 
时 ， 也 去 除了 3GB 仍 移 。 因 此 ， 此 后 直到 下 一 次 重新 逆 载 ， 和 寄存 器 gdtr 
中 将 始终 记录 的 是 符号 boot_gdt_descr 的 物理 地 址 。 


但 征 在 CPU 开局 了 分 页 后 ， 应 该 使 用 虚拟 地 址 寻 址 了 。 上 所 以 ， 在 开 
司 分 页 后 ， 和 内 核 还 需要 重新 猴 载 寄存 化 gdtr， 将 其 中 的 物理 地 址 任 换 为 
GDT 揪 述 和 从 的 虚拟 地 址 ， 这 就 古 内 核 两 次 加 载 gdtr 寄 和 存 强 的 原因 。 因 为 
这 个 boot_gdt 只 是 临时 的 GDT， 够 用 束 可 以 了 ， 所 以 我 们 看 到 boot_gdt 非 


Ms/ 人 


时 由- 省-。 


由 核 中 第 二 次 加 载 寄 存 规 gdtr 的 代 但 如 下 : 


linux-3.7.4/arch/x86/kernel/head 32.8: 


01 ENTRY (startup 32) 


02 a 

03 movl1 spalinitial page table), Seax 

04 mOw] ®Seax, Scr3 /* set the Page table pointer.. */ 
05 mOw] Scr0O, Seax 


06 Grl $sX86 CRO PG,Seax 


07 mOV]L %eax, cr0 /* ..and set paging (PG) bit */ 


08 i 

09 lgdt early gdt descr 
10 所 

11 ENTRY (early gdt descr) 

Be .word GDT ENTRIES*8-1 


Br .long gdt page /* Overwritten for secondary CPUS */ 
14 和 省 


在 开启 分 页 机 制 后 ， 虚 拟 内 存 已 经 初始 化 完成 ， 内 核 不 必 再 使 用 汇 
编 语言 将 虚拟 地 址 使 用 宏 pa 手 工 转化 为 物理 地 址 了， 可 以 直接 使 用 符号 
的 虚拟 地 址 了， 如 第 9 行 代码 使 用 的 符号 early_gdt_descr 以 及 第 13 行 代码 
使 用 的 特写 gdt_page， 使 用 的 全 部 是 符号 的 虚拟 地 址 ，MMU 会 完成 虚拟 
地 址 到 物理 地 址 的 转换 。 换 句 话 说 ， 内 核 不 必 再 使 用 汇编 语言 “精确 ”地 
昌 挥 CPU 了， 可 以 使 用 更 容易 维护 的 C 语 言 了 了， 所 以 内 核 使 用 C 语 言 重 
新 定义 了 更 完善 的 GDT: 


1Inux-3.7.4/arch/X86/KErnel/cpu/commcn .ec : 


DEFINE PER CPU PAGE ALIGNED'(struct gdt page, gdt page) = 
{ -gat = :4 
[GDT ENTRY KERNEL _ CS] = GDT ENTRY INIT(Oxc09a, 0, Oxfffff)., 
[GDT ENTRY KERNEL DS)] = GDT ENTRY INIT(Oxc092, 0, Oxfffff)., 
[GDT ENTRY DEFAULT USER CS] = GDT ENTRY INIT(Oxc0Ofa, 0, 
DocftEEE). 
[GDT ENTRY DEFAULT USER DS] = GDT ENTRY INIT(Oxc0Of2, 0, 
Oxftffff), 


)} 1) 


宏 GDT_ENTRY_INIT 用 来 构建 一 个 全 局 描述 人 符 ， 定 义 如 下 : 


linux-3.7.4/arch/x86/include/asm/desc defs .hs: 


#define GDT ENTRY INIT(flags, base, limit) { { {\ 


-a (Linit) TC OXFEEE}Y | ttlbage) 二 0EEEEJ we 16)y \ 
.b= (((base) & Oxff0000) >> 16) | (((flags) & Oxf0ff) << 8) | \ 
((limit) & Oxf0000) | ((base) & Oxff000000), \ 


i 


参照 图 5-16 所 示 的 段 搬 述 从 的 定义 。 
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Base Address 15:00 Segment Limit 15:00 0 


图 5-16 有 段 挡 述 符 定 义 


可 见 ， 所 有 段 的 基 址 都 是 0， 上 限 都 是 0xfffff。 正 如 我 们 前 面 讨论 
的 ，Linux 使 用 了 平坦 内 存 模型 。 各 个 段 仅 有 属性 有 一 些 震 别 ， 如 表 5-2 
所 示 。 


表 5-2 内核 代码 段 和 数据 段 的 属性 


其 中 不 同 的 字段 是 DPL 和 Type。 


DPL 表 示 段 的 特权 级 。 内 核 的 代码 段 和 数据 段 的 特权 级 是 最 高 的 
0， 而 用 户 代 码 和 数据 段 的 特权 级 是 最 低 的 9。 显然 ， 从 你 护 的 角度 ， 和 内 
核 将 段 划 分 为 内 核 空间 和 用 户 空 间 。 


另外 一 个 不 同 的 是 Type。 对 于 代 但 段 ， 包括 内 核 和 用 户 空 间 的 ， 具 
类 型 为 1010b， 表 示 只 有 具 有 可 读 权 限 。 数 据 段 的 类 型 为 0010b， 表 示 具 有 
读 写 权限 。 显 然 这 也 是 从 保护 角度 考虑 的 ， 试 图 写 代 码 段 将 沿 发 


Segment Fault 类 型 的 错误 。 


理论 上 ， 如 果 使 用 平坦 内 存 模型 ，GDT 中 只 定义 一 个 段 描述 符 就 可 
以 了 ， 所 有 段 和 都 使 用 这 一 个 段 朱 述 符 ， 但 是 出 于 保护 的 目的 ， 代 但 是 不 
允许 随意 改写 的 ， 因 此 内 核定 义 了 代 人 码 段 和 数据 段 。 同 样 出 于 你 护 的 目 
的 ， 凡 核 是 不 允许 用 户 空 间 的 程序 随意 访问 内 核 空间 的 ， 所 以 内 核 义 定 
义 了 内 核 段 和 用 户 段 。 最 终 内 核定 义 了 内 核 代 人 码 段 、 凡 核 数 据 段 、 用 户 
代码 段 和 用 户 数据 段 。 


正如 同 在 平坦 内 存 模 型 下 ， 链 接 器 通过 偏 移 地 址 控制 代码 和 数据 占 
据 的 空间 ， 链 接 器 也 需要 通过 偏 移 地 址 控制 内 核 和 用 户 程序 占据 的 地 址 
空间 。 在 Linux 系 统 上 ， 约 定 内 核 占用 3GB~4GB 的 地 址 空间 ， 而 应 用 程 
序 使 用 0~3GB。 


那么 内 核 是 如 何 将 上 自己 的 地 址 空间 限制 在 3GB 以 上 的 呢 ? 如 同 普通 
应 用 程序 一 样 ， 内 核 符号 的 地 址 也 是 编译 时 链接 器 分 配 的 ， 查 看 链接 内 


核 时 链接 带 使 用 的 链接 硕 脚 本 : 


linux-3.7.4/arch/x86/kernel/vml inux.lds.s: 
SECTIONS 
#ifdef CONFIG X86 32 

，= LOAD OFFSET + LOAD PHYSICAL ADDR.; 


phys startup 32 = startup 32 - LOAD OFFSET; 
i#else 


| 


其 中 LOAD_PHYSICAL_ADDR 是 假定 的 内 核 在 物理 内 存 中 的 实际 
加 载 位 置 ， 而 LOAD_OFFSET 束 是 人 为 让 内 核 在 线形 地 址 空间 中 的 仿 
移 ， 其 定义 如 下 : 


linux-3.7.4/arch/x86/kernel /vml inux.lds.Ss: 


i#¥define LOAD OFFSET PAGE OFFSET 
linux-3.7.4/arch/x86/include/asm/page 32 types.h: 
#define PAGE OFFSET AC (CONFIG PAGE OFFSET, UL) 
linux-3.7.4/.contig: 


CONFIG PAGE OFFSET=0XCO000000 


可 见 对 于 IA32 来 说 ， 这 个 偏 移 默认 是 3GB。 


我 们 看 到 ， 如 果 不 增 加 偏 移 LOAD_OFFSET， 内 核 中 指令 的 起 始 地 


址 就 是 LOAD_PHYSICAL _ ADDR。 如 果 内 核 在 内 存 中 也 是 实际 加 载 到 
了 LOAD _ PHYSICAL _ ADDR， 那 么 指令 或 者 数据 的 地 址 就 是 物理 地 
址 。 


而 在 平坦 内 存 模 型 下 ， 在 未 开局 分 页 时 ，CPU 送 给 MMU 的 妙 辑 地 
址 经 过 MMU 转 换 后 ， 偏 移 地 址 将 原封 不 动 的 作为 物理 地 址 送 到 总 线 
We 


物理 地 址 = 偏 移 地 址 + 段 基 址 (0) = 仿 移 地 址 


显然 ， 这 要 求 CPU 送 出 的 偏 移 地 址 就 是 物理 地 址 。 但 事实 上 ， 内 核 
中 指令 和 数据 的 地 址 在 链接 时 都 增加 了 仿 移 LOAD_OFFSET。 因 此 ,在 
没有 开局 分 页 机 制 前 ， 如 膝 使 用 内 核 中 的 符号 ， 必 须要 减 去 仿 移 
LOAD_OFFSET。 因 此 ， 内 核 中 定义 了 宏 pa， 其 目的 束 是 将 迎 辑 地 址 去 
除 人 为 安排 的 3GB 仿 移 。 宏 pa 的 定义 如 下 : 


linux-3.7.4/arch/x86/kernel/head 32.3: 


i#define palX)} ((X) - PAGE OFFSET) 


如 在 head_32.S 中 ， 寻 址 boot_gdt_descr、initial_page_table 等 从 号 
时 ， 因 为 尚未 开启 分 页 ， 所 以 均 使 用 了 宏 pa。 


而 在 CPU 开启 分 页 机 制 后 ， 通 过 页 表 的 映射 ， 这 个 3GB 的 偏 移 将 被 
消除 。 因 此 ， 在 第 二 次 加 载 gdtr， 引 用 符号 early_gdt_descr 时 ， 就 不 再 需 


要 进行 任何 手动 的 转换 了 。 
2. 创 建 内 核 页 表 


前 面 我 们 讨论 了 内 核 为 地 址 转换 过 程 中 MMU 的 分 段 单 元 准备 GDT 
的 过 程 。 这 里 我 们 来 讨论 内 核 为 MMU 中 负责 第 二 阶段 的 地 址 转换 的 分 
页 单元 准备 的 页 表 。 


如 采 棵 作 系 统 永远 在 内 核 空 间 运 行 ， 那 么 页 表 只 需要 复 兰 内 核 空间 
束 可 以 了 。 但 是 ， 最 终 操作 系统 一 定 是 要 运行 进程 的 ， 对 于 一 个 进程 来 
说 ， 它 大 部 分 时 间 运 行 在 用 户 空 间 ， 但 是 有 时 也 要 在 内 核 空间 运行 ， 因 
此 进程 访问 的 空间 是 整个 线形 地 址 空间 ， 包 括 用 户 空 间 和 内 核 空间 。 


虽然 进程 的 用 户 空 间 “ 岁 风 年 年 人 不 同 *”， 但 是 内 核 空 间 却 是 “年 年 
岁 罗 化 相似 *”。 操 作 系 统 只 有 一 个 内 核 ， 所 以 理论 上 ， 进 程 的 页 表 只 映 
时 用 户 空 间 束 可 以 了 ， 进 程 运 行 在 用 户 空 间 时 ， 使 用 这 个 页 表 ， 而 当 进 
程 切入 内 核 空间 时 ，CR3 等 存 融 指 问 内 核 页 表 。 但 是 ， 看 似 只 是 一 个 寄 
存 器 的 装载 动作 ， 其 背后 的 代价 却 是 非常 高 郧 的 。 因 为 地 址 空间 的 切 
换 ， 会 村人 怪 TLB 被 清空，TLB 中 绥 存 有 的 是 虚拟 地 址 到 物理 地 址 的 上 映 碳 ， 
它 可 以 大 大 提高 虚拟 地 址 到 物理 地 址 的 转换 速度 。 而 且 ， 进 程 在 用 户 空 
间 和 内 核 空间 的 切换 还 是 比较 频繁 的 ， 比 如 ， 一 个 系统 调用 就 会 导致 进 
程 切换 到 内 核 空 间 。 因 此 ，Linux 操 作 系 统 采用 了 这 样 一 个 元 余 策 略 ， 
在 每 个 进程 的 页 表 中 都 包含 了 相同 的 内 核 空间 映射 部 分 。 这 样 ， 当 进程 


在 用 户 空 间 和 内 核 空 间 切 换 时 ， 不 必 重 新 逆 载 CR3 寄 人 存 化 。 


在 内 核 刚 刚 开 始 初始 化 时 ， 内 存 疝 未 进行 完全 的 初始 化 ， 所 以 内 核 
将 页 表 的 初 妈 化 分 成 两 个 阶段 进行 。 在 开局 中式 映射 前 ， 内 核 还 只 能 使 
用 汇编 语言 。 在 准备 基本 的 运行 环境 中 ， 你 愿意 使 用 汇编 语言 考虑 各 种 
人 负 贡 的 情况 吗 ? 当然 不 愿意 了 了 ， 我 们 当然 希望 尽早 地 准备 好 可 以 使 用 C 
语言 的 环境 。 因 此 ， 这 时 内 核 仅 建立 一 个 小 的 够 用 的 临时 页 目录 和 页 
表 。 在 页 式 有 映射 开局 后 ， 和 内核 惑 可 以 坚 无 顾忌 地 使 用 C 语 言 编 写 的 代 但 
了 ， 于 是 内 核 进行 内 存 的 初始 化 。 在 内 存 子 系统 初始 化 完全 完成 后 ， 内 
核 央 调用 C 语 言 疯 数 建立 完整 的 页 表 。 


通常 ， 内 核 创 建 的 这 个 页 目录 和 页 表 也 被 称 为 主 内 核 页 目录 和 页 
表 ， 它 们 也 作为 进程 的 页 目录 和 页 表 的 模板 。 每 当 进 程 创 建 负 表 时 ， 其 
将 从 主 内 核 创 建 的 这 部 分 页 目录 和 页 表 复 制 页 目录 项 和 页 表 项 。 当 内 核 
的 内 存 映 射 肥 生变 化 时 ， 内 核 将 更 新 主 内 核 页 目录 和 页 表 ， 同 时 ， 也 同 
步 进程 的 页 目录 和 页 表 中 映射 内 核 的 页 目录 项 和 页 表 项 。 而 对 于 页 雪 的 
用 户 空间 部 分 ， 因 为 与 具体 进程 密切 相关 ， 因 此 由 具体 进程 运行 时 按 需 
创建 。 


在 本 小 节 中 ， 我 们 讨论 了 内 核 第 一 阶段 手工 创建 页 表 的 过 程 ， 后 面 
第 二 阶段 使 用 C 语 言 构建 页 未 的 过 程 与 此 原理 完全 相同 ， 只 不 过 高 度 目 
动 化 了 上 了， 我 们 不 再 重复 。 


(1) 页 目录 和 页 表 的 存储 位 置 


最 初 ， 页 目录 的 位 置 存放 在 BSS 段 中 的 变量 swapper_pg_dir 处 。 在 
建立 页 目录 表 时 ， 除 了 需要 将 页 目录 中 映射 内 核 空间 的 部 分 映射 到 内 核 
占据 的 物理 内 存 外 ， 还 要 把 页 目录 中 映射 用 户 空 间 的 最 初 部 分 也 映射 到 
内 核 占 据 的 物理 内 存 。 内 核 为 什么 要 这 么 做 呢 ? 这 是 x86 架 构 明 确 要 求 
的 ， 在 Intel 的 手册 中 明确 规定 了 CPU 切 换 到 保护 模式 ， 并 开启 页 式 映射 
时 的 一 个 要 求 ， 具 体 如 下 : 


9.9.1 Switching to Protected Mode 


6. If paging is enabled, the code for the MOV CRO instruction 
and the JMP or CALL instruction must come from a page that 
ls lidentity mapped (that is, the linear address before 七 he 
Jump is the same as the physical address after paging and 
protected mode is enabled). The target instruction for the 
JMP or CALL instruction does not need to be identity mapped. 


准确 的 原因 需要 问 Intel CPU 的 设计 者 了 ， 但 是 原因 之 一 是 : 在 CPU 
设置 了 寄存 器 CR0 开 司 分 页 机 制 后 ， 显 然 所 有 地 址 都 应 该 使 用 虚拟 地 
址 ， 而 不 再 使 用 物理 地 址 ， 因 此 内 核 将 使 用 一 条 长 跳 较 指令 ， 使 EIP 重 
新 装载 下 一 条 指令 的 虚拟 地 址 。 但 是 ， 在 寻 址 这 条 长 跳 转 指令 本 喘 时 ， 
依然 使 用 的 是 物理 地 址 。 显 然 ， 要 确保 经 过 页 面 映射 后 ， 这 条 指令 依然 
可 以 正确 映射 到 其 所 在 的 物理 内 存 ， 因 此 页 目录 中 映射 用 户 衬 间 的 最 初 
部 分 ， 即 没有 3GB 偏 移 的 部 分 ， 也 映射 到 内 核 占据 的 物理 内 存 。 也 就 是 
说 ， 物 理 地 址 经 过 页 面 映射 ， 依 然 可 以 映 冉 到 正确 的 物理 地 址 。 这 就 是 
Itel 手 册 中 表达 的 所 谓 的 恒 等 映 射 〈identity map) 。 


曾经 一 段 时 间 ， 这 种 机 制 工作 得 很 好 ， 也 没有 出 现 过 什么 问题 。 但 
是 后 来 ， 在 菜 些 32 位 的 x86 处 理 占 上 将 swapper_pg_dir 作 为 页 表 油 活 其 他 
CPU (secondary CPU)》 时 出 现 了 一 些 bug。 引 起 这 个 bug 的 原因 束 是 恒 等 
隐 姥 。 


为 了 解决 这 个 问题 ， 内 核 引 入 了 变量 initial page_table， 其 与 
swapper_pg_dir 一 样 ， 也 定义 在 内 核 的 BSS 段 : 


linux-3.7.4/arch/x86/kernel/head 32.8: 


人 
* BSS section 


Ry 


ENTRY (1nitial page table) 
.i111 1024,4,0 


ENTRY (swapper pg dir) 
fill] 1024,4,0 


按照 x86 架 构 的 要 求 ， 在 initial _page_table 中 进行 了 恒 等 映 射 。 但 是 
initial page_table 只 是 在 最 初 引 导 时 使 用 ， 一 旦 引导 完成 ， 内 核 将 
initial page_table 处 的 内 核 页 表 复 制 到 swapper_pg_dir， 但 是 只 复制 非 恒 
等 映射 部 分 ， 然 后 将 swapper_pg_dir 装 载 到 寄存 器 CR3。 世 就 是 说 ， 内 
核 使 用 位 置 swapper_pg_dir 处 的 页 目录 作为 最 终 的 页 目录 ， 代 但 如 下 : 


linux-3.7.4/arch/x86/kernel/setup.c: 


VOId init setup archilichar **cmdline Pp) 


{ 


clone pgd range (swapper pg dir + KERNEL PGD BOUNDARY， 
linitial page table + KERNEL PGD BOUNDARY, 
KERNEL PGD PTRS) ; 


load cr3 (swapper pg dir); 


后 续 激 活 其 他 CPU 时 ， 内 核 也 使 用 这 个 去 除了 恒 等 映射 的 
swapper_pg_dir 作 为 页 目录 ， 代 人 码 如 下 : 


linux-3.7.4/arch/x86/kernel/smpboot.c: 
家 


* Activate a secondary processor. 
0 
notrace static Vvoild cpuinit start secondary (void *unused) 


{ 


/* Switch away from the initial page table */ 
load cr3 (swapper pg dir); 


除了 要 保存 页 目录 外 ， 内 核 中 也 要 分 配 存 储 页 表 的 地 方 。 内 核 会 将 
页 表 存 储 在 BSS 后 面 的 brk 段 中 从 标号 _brk_base 开 始 的 地 方 。 
”brk base 在 内 核 链接 脚本 vmjlinux.l]ds.S$ 中 定义 ， 代 人 码 如 下 : 


1inux-3.7.4/arch/x86/kKkernel/vmlinux.1lds.S: 


SECTIONS 


{ 


. = ALIGN (PAGE SIZBE) ; 


.brk : AT(ADDR(.brk) - LOAD OFFSET) { 
brk base = .; 
.+= 64 * 1024; /* 64k alignment slop space */ 
*(.brk reservation) /* areas brk users have reserved */ 
BE Lim mm se 


内 核 中 的 brk 概 念 与 普通 程序 中 的 brk 的 概念 基本 相同 ， 都 表示 动态 
内 存 分 配 的 内 存 区 域 。 


(2) 建立 页 目录 和 页 表 


在 创建 页 目录 和 页 表 时 ， 第 一 步 需 要 找到 页 目录 和 页 表 所 在 的 位 
置 ， 然 后 按照 IA32 架 构 的 页 目录 项 和 页 表 项 的 格式 约定 ， 逐 项 填充 各 个 
表 项 。IA32 架 构 的 页 目录 项 和 页 表 项 的 格式 如 图 5-17 所 示 。 


Page-Directory Entry(4KB page) 


| PIP ; > 
Address of page table ignored giA|lCIw 
站 :| 下 





Page-Table Entry(4kB page) 


PIP|U ; 
DITI|S 


图 5-17 页 目录 项 和 页 衣 项 的 格式 





由 核 初始 化 时 创建 页 目录 项 和 页 雪 项 的 代码 请 段 如 下 : 


linux-3.7.4/arch/x86/kernel/head 32.8: 


01 page pde offset = ( PAGE OFFSET >> 20); 

02 

03 movl spa(l brk base), %edi 

04 movl spal(linitial page table), %edx 

O05 movl1 S$PTE IDENT ATTR, %eax 

dD 十里 

07 leal PDE IDENT ATTR (%edi),%ecx /* Create PDE entry */ 
08 moOV1 %Secx, (Sedx) /* Store identity PDE entry */ 
09 mov] %Secx,page pde offset (%edx) /* Store kernel PDE entry */ 
10 addl] S$4,%edx 

Sy movl1] $1024, %Secx 

Le ds 

1]3 stosl 

村. adQ1l1 SO0Ox1000, Seax 

15 Lo 1 

16 Ne 

人 movl S$pa( end) + MAPPING BEYOND END + PTE IDENT ATTR, %ebp 
18 cmpl %ebp, Seax 

19 TD 0 


上 上 述 代码 中 包 售 了 一 个 二 重 循 环 : 代码 第 6~19 行 是 第 一 层 循环 ， 这 
层 循环 的 目的 是 填充 页 目录 项 ， 直 到 建立 的 页 表 映 射 的 地 址 可 以 履 盖 
_end+MAPPING_BEYOND_END。 其 中 符号 _end 在 链接 脚本 
vmlinux.lds.S 中 定义 ， 标 识 内 核 映 像 的 末尾 。 这 里 多 映射 了 
MAPPING_BEYOND_END 目 的 是 为 后 面 第 二 阶段 要 建立 完整 的 页 表 准 
备 空 间 。 人 代码 第 12~15 行 是 第 二 层 循环 ， 这 层 循 环 每 次 循环 1024 次 ， 目 
的 是 填 元 一 个 页 表 中 的 1024 个 页 表 项 。 


填充 页 目录 项 


匈 来 看 创建 页 目录 项 的 第 一 层 循环 。 第 4 行 代码 将 页 目录 所 在 的 位 


置 initial_page_table 人 存 入 寄存 磺 edx。 第 3 行 和 第 7 行 代码 共同 创建 了 第 一 
个 页 目录 项 的 内 容 ， 将 其 保存 到 寄存 左 ecx。 根 据 第 3 行 代码 可 见 ， 第 一 
个 页 表 位 于 符号 ”brk_base 处 ， 这 个 符号 也 在 链接 脚本 ymlinux.1ds.S 中 有 定 
义 ， 基 本 上 相当 于 普通 进程 的 Program break 处 ， 也 就 是 堆 开 始 的 地 方 。 


在 确定 了 页 目录 项 所 在 的 位 置 ， 并 且 也 准备 好 了 页 目录 项 的 内 容 
后 ， 第 8 行 代 但 将 准备 好 的 页 目录 项 的 内 容 填充 到 页 目录 项 所 在 的 位 
置 。 


目录 中 映射 内 核 空 间 的 部 分 映射 到 内 核 占 据 的 物理 内 存 外 ， 还 要 把 页 目 
中 映 冉 用 尸 空 间 的 最 初 部 分 也 映 映 到 内 核 占 据 的 物理 内 和 存 ， 也 束 古 前 和 面 
谈 到 的 恒 等 映 射 ， 这 里 第 9 行 代码 就 是 做 这 件 事 的 。 


CC 


填充 页 表 项 


第 二 层 人 循 坏 完成 贝 表 项 的 填 元 。 先 来 看 第 13 行 处 的 汇编 指令 stosl， 
该 指令 将 寄存 右 eax 中 的 值 存储 到 寄存 费 edi 指 示 的 内 存 处 ， 然 后 将 寄存 
侨 edi 中 的 值 增 加 4 和 字 市 。 显 然 ， 守 存 句 edi 中 保存 的 是 页 表 项 所 在 的 位 
置 ，eax 中 保存 的 是 页 表 项 的 内 容 。 


根据 第 3 行 代 人 码 可 见 ， 寄 存 器 edi 的 初 值 被 设置 为 ”brk base， 也 残 
是 说 ， 第 1 个 页 表 在 符号 “brk base 处 。 寄 存 器 eax 的 初 值 在 第 5 行 代码 中 
设置 为 PTE IDENT _ATTR: 


linux-3.7.4/arch/x86/include/asm/pgtable types.h: 


tdefine PTE IDENT ATTR 0x003 /* PRESENT+RW */ 


因为 PTE_ IDENT_ATTR 的 高 20 位 为 0， 所 以 寄存 器 eax 的 高 20 位 也 
为 0。 也 束 是 说 ， 第 一 个 页 表 项 肌 射 的 内 存 页 面 是 从 内 存 0 开 始 的 一 个 页 
面 % 


因此 ， 第 二 层 循 环 从 _brk_base 处 填充 页 表 项 ， 第 一 个 页 表 项 履 羡 
了 从 内 存 0 开始 的 一 个 页 面 ， 以 后 每 次 循环 后 将 eax 指 癌 的 物理 地 址 增加 
4KB， 上 见 第 14 行 代码 ， 即 指 癌 下 一 个 物理 内 存 页 和 面 ， 依 次 类 推 。 第 11 行 
代码 设置 循环 的 识 数 为 1024， 所 以 第 二 层 循环 循环 1024 次 ， 将 第 一 个 页 
表 全 部 填 元 。 最 终 ， 第 一 个 页 表 映 射 了 从 0 开始 的 4MB 内 存 空间 。 


第 二 层 循环 结束 后 ， 代 码 将 再 次 进入 第 一 层 循环 ， 重 新 开始 新 一 轮 
大 循环 。 我 们 看 一 下 新 一 轮 循环 页 目录 项 和 页 表 分 别 所 在 的 位 置 。 第 10 
行 代码 将 寄存 融 edx 增 加 了 4 字 节 ， 即 指 癌 下 一 个 页 目录 项 。 而 在 第 二 层 
循环 结束 后 ， 寄 人 存 耸 edi 恰 好 指 同 第 一 个 页 表 后 的 末尾 ， 这 里 也 焉 是 即 
将 开始 的 第 二 个 页 表 的 起 始 位 置 。 然 后 ， 内 核 开 启 填充 第 二 个 页 目录 
项 ， 然 后 进行 第 二 个 页 表 的 过 程 ..…: 以 此 类 推 ， 当 建立 的 页 表 已 经 可 以 
映射 到 物理 地 址 _end+MAPPING_BEYOND_END 时 ， 即 完成 了 初始 页 
表 的 建立 。 


了 最终， 内 核 建 并 的 页 目录 以 及 页 表 如 图 5-18 所 示 。 


OK 
4KB 


4092KB 


16MB — > 


text, data, ... 


initial page table — YY . 
(PDE 1) 


Directory 


(PDE 768) 


_brk base 一 到 | | 
| 
0x1003 » || 


Ox3FFO03 
十 
Ox400003 


| 


bss 


Page Table 1 


brk 


Page Table 2 


“end 


图 5-18 内 核 初始 页 表示 意图 





(3) 局 动 分 页 机 制 


页 目录 和 页 表 准 备 好 后 ， 内 核 设 置 守 存 如 CR3 指 问 矶 目录， 设置 等 
存 器 CR0 中 的 PG 位 ， 开 局 页 式 映 射 ， 代 码 片 段 如 下 : 


linux-3.7.4/arch/x86/kernel/head 32.58: 


movl 
movl 
movl 
orl 

movl 
]1jmp 


spa(linitial page table), %eax 
Seax, SCcr3 /* set the page table pointer.. */ 
SCIr0, Seax 


5X86 CRO PG, Seax 
Seax, cro0 /* ..and set paging (PG) bit */ 
$ BOOT CS,$1f /* Clear prefetch and normalize Seip */ 


[1] 来 源 : Intel 64 and IA-32 Architectures Software Developer's Manual, 


Volume 3A: System Progtramming Guide,Patrt 1.Januaty 2011。 


5.3.2 ”初始 化 进程 0 


POSIX 标 准 规定 ， 从 合 POSIX 标 准 的 操作 系统 及 用 复制 的 方式 创建 
进程 ， 但 是 内 核 忌 得 想 办 法 创建 第 一 个 原始 的 进程 ， 耕 则 其 他 进程 复制 
谁 呢 ? 因 此， 内 核 静 态 的 创建 了 一 个 原始 进程 ， 因 为 这 个 进程 是 内 核 的 
第 一 个 进程 ，Linux 为 其 分 配 的 进程 亏 为 0， 所 以 也 被 称 为 进程 0。 进 程 0 
不 仅 作 为 一 个 模板 ， 在 没有 其 他 吏 绪 任务 时 进程 0 将 投入 
叉 称 为 idqle 进 程 。 下 面 我 们 惑 看 看 内 核 是 如 何 为 进程 0 分 配 任务 结构 和 内 


核 栈 这 两 个 关键 数据 结构 的 。 


1. 创 建 任务 结构 


进程 0 的 任务 结构 的 定义 如 下 : 


Jinux3;7 4/inityinit tasksec: 


struct task struct nit task = INIT TASK(in1it task); 


linux-3.7,.4/include/linux/init task.h: 


#define INIT TASK(tsk) 


| 


.State 
.Stack 
.UsSage 


其 中 变量 init_task 所 在 的 位 置 (在 内 核 的 数据 段 中 ) 融 是 进程 0 的 任 


0, 
Einit thread 1info, 
ATOMIC INIT(2), 


% 


务 结构 。 


当前 进程 的 任务 结构 是 一 个 频繁 使 用 的 变量 ， 为 了 方便 获取 它 ， 内 
核 中 专门 定义 了 一 个 宏 current。 这 个 获取 方法 几经 修改 ， 现 在 的 方式 是 
定义 了 一 个 变量 current_task 指 同 当 前 进程 的 任务 结构 。 在 内 核 初始 化 
时 ， 内 核 将 这 个 变量 设置 为 指向 init_task， 换 句 话 说， 当前 进程 是 进程 
0， 代 码 如 下 : 


linux-3.7.4/arch/x86/kernel/cpu/common.c 


DEFINE PER CPU(struct task struct *, current task) = &init task; 


读者 不 必 关 心 所 谓 的 PER_CPU， 这 是 内 核 为 了 优化 而 定义 的 。 为 
了 在 SMP 情 况 下 减少 锁 的 使 用 ， 内 核 中 为 每 时 CPU 都 定义 了 一 个 


current task 。 


宏 current 束 是 通过 读 取 current_task 来 获取 当前 进程 的 任务 结构 ， 秆 


义 如 下 : 


linux-3.7.4/arch/x86/include/asm/current.h: 
#define current get current () 


static always inline struct task struct *get current (void) 


人 
| 


return this cpu read _ Stable (CULent 七 asSk) ; 


接 下 来 在 内 核 创 建 第 一 个 真正 意义 上 的 进程 《进程 1) 时 ， 内 核 将 
从 current 指 同 的 进程 进行 复制 ， 而 此 时 这 个 current 恰 恰 指 问 进 程 0 的 任务 


结构 。 
2. 进 程 0 的 内 核 栈 


进程 0 不 会 切换 到 用 户 空间 ， 所 以 无 需 用 户 空 间 的 栈 ， 只 需 为 其 安 
排 好 内 核 空 间 的 栈 即 可 。 进 程 内 核 栈 的 数据 结构 抽象 如 下 : 


linux-3.7.4/include/linux/sched.h: 
union thread union { 


struct thread infto thread info; 
unsigned long stack [THREAD SIZE/sizeof (long)]; 


这 个 抽象 中 的 数组 stack 束 是 内 核 栈 ， 对 于 IA32， 宏 THREAD_SIZE 
定义 为 8KB， 可 见 内 核 为 进程 内 核 栈 分 配 的 大 小 为 两 个 页 面 。 那 么 为 什 
么 进程 的 内 核 栈 与 另外 一 个 结构 体 thread_info 定 义 在 一 起 呢 ? 我 们 后 面 
再 讨论 这 个 问题 ， 下 面 完 来 具体 看 一 下 进程 0 的 内 核 栈 : 


linux-3.7.4/init/init task.c: 
union thread union init thread union init task data = 
{ INIT THREAD INFO(init task) }; 
其 中 ， 变 量 init_thread_union 吏 是 进程 0 的 内 核 栈 所 在 的 位 置 ， 这 个 
变量 也 是 在 内 核 的 数据 段 中 ， 当 然 其 栈 撒 是 在 
init thread union+THREAD SIZE 处 了 ， 如 图 5-19 所 示 。 


init thread union 
二 THREAD SIZE 


咱 一 一 ES5Spb 


THREAD SIZE stack[THREAD SIlzE/sizeof(long)] 





sf 、 thread info 
init thread union 一 一 


图 5-19 进程 0 的 内 核 栈 


在 内 核 初 始 化 时 ， 设 定 了 栈 指针 esp 指 同 
init thread union+THREAD SIZE， 代 码 如 下 : 


linux-3.7.4/arch/x86/kernel/head 32.8: 


ENTRY (startup 32 | 
mo palstack start),*ecx 


leal - PAGE OFFSET (Secx) ,Sesp 


ENTRY (stack start) 
.long init thread union+THREAD SIZ2E 


因为 此 时 尚未 开局 分 页 机 制 ， 而 从 号 stack_start 以 及 
init_thread_union 均 使 用 有 的 是 加 了 仿 移 (0xc0000000) 的 虚拟 地 址 ， 所 以 
这 里 都 要 去 挤 这 个 偶 移 。 而 在 开 司 页 式 映 射 后 ， 把 这 个 俩 移 又 加 了 回 
来 ， 如 下 面 代码 中 使 用 黑体 标识 的 部 分 : 


linux-3.7.4/arch/x86/kernel/head 32 .3: 
ENTRY (startup 32) 
mMOV]1 Scr0O,$Seax 
orl S$X86 CRO PG, Seax 
moOw] ®Seax,$scr0 /* ..and set paging (PG) bit */ 


ljmp $ BOOT CS,$1f /* Clear prefetch and normalize %®eip */ 


/* Shift the stack pointer to a virtual address */ 
addl $ PAGE OFFSET, %esp 


最 后 ， 为 了 在 进程 切换 时 可 以 找到 进程 0 的 内 核 栈 ， 还 要 将 其 保存 
在 进程 0 的 任务 结构 的 结构 体 thread_struct 的 对 象 thread 中 ， 代 码 如 下 : 


linux-3.7.4/include/linux/init task.,h: 


#define INIT TASK (tsk) \ 
{ \ 
.thread = INIT THREAD, 


} 


linux-3.7.4/arch/x86/include/asm/processor.h: 


#define INIT THREAD { \ 
.Sp0 = Slizeof (init stack) + (long)&init stack; \ 


} 


linux-3.7.4/arch/x86/include/asm/thread info.h: 


#define init stack (init thread union.stack) 


结构 体 thread_struct 中 的 sp0 束 是 记录 进程 内 核 栈 的 栈 指针 。 


3. 宏 current 与 进程 内 核 栈 


这 一 人 小 和 我 们 来 回答 为 什么 进程 的 内 核 栈 与 另外 一 个 结构 体 
thread info 定 义 在 一 起 的 问题 。 


在 2.4 版 本 以 前 ， 内 核 直接 将 任务 结构 先入 在 堆栈 的 最 下 方 。 但 是 
鉴于 任务 结构 也 占据 不 小 的 空间 ， 而 且 要 把 任务 结构 放 在 栈 底 ， 还 需要 
把 任务 结构 复制 到 栈 中 。 因 此 ， 在 2.6 版 本 时 ， 内 核 设 计 了 结构 体 
thread_info， 取 而 代 之 的 是 thread_info 放 在 了 栈 底 。 通 过 对 寄存 器 esp 进 
行 对 齐 运 算 ， 即 可 方便 地 找到 当前 进程 的 thread_info: 


linux-3.7.4/arch/x86/include/asm/thread info.h: 
register unsigned long current stack pointer asm("esp") used,; 


二 


下 相交 
(current _ Stack pointer & ~(THREAD SIZE - 1)); 


} 


而 thread_info 中 有 一 个 指针 指 癌 进程 的 任务 结构 ， 因 此 获取 当前 进 
程 的 任务 结构 的 方法 如 下 : 


linux-3.7.4/include/asm-generic/current.h: 


#define get currentl(l) lcurrent thread infto(l)->task) 
tdefine current get current{) 


但 是 ， 内 核 开 友 者 还 是 认为 计算 thread_info 位 置 时 间 过 长 ， 于 是 采 
用 了 以 空间 换 时 间 的 办 法 ， 从 2.6.22 版 本 开始 ， 内 核 在 内 存 中 定义 了 一 


个 变量 current task 记录 当前 进程 鸭 任务 结构 。 内 核 不 再 通过 计算 ， 而 是 
直接 通过 一 条 访 存 指令 来 设置 或 者 读 取 当前 进程 的 任务 结构 。 
我 们 在 前 耐看 人 到， 在 内 核 初 始 化 时 ，current_task 指 问 进 程 0 的 任务 


结构 init_task。 以 后 每 次 切换 进程 时 ， 调 度 函 数 设 置 current_task 指 癌 下 
一 个 投入 运行 的 进程 的 任务 结构 : 


linux-3.7.4/arch/x86/kernel/process 32.c: 


notrace funcgqraph struct. task Struct: * 
switch tolstruct task struct *prev Pp struct task struct 
> 


this epu writelcurrent. task;: next. Pp): 


5.3.3 ”创建 进程 1 


在 内 核 初始 化 的 最 后 ， 将 调用 kernel thread 创 建 进程 1， 代 人 码 如 下 : 


linurs3.7.4/init /malin. eo, 


static noinline void init refok rest init (void) 


{ 


RE CHG 抽 计 NULL, CLONE FS | CLONE SIGHRAND) ; 
| 
linux-3.7.4/kKkernel/fork.c 
DLaQ 才 Eernmel thireaddant.. CEny (Vo WY y Yong WADE, a9 
{ 


return do fork (flags|CLONE VM|CLONE UNTRACED, 
(unsigned long)fn, NULL, (unsigned long)arg, NULL, NULL); 


根据 kernel _ thread 代码 可 见 ， 进 程 1 是 通过 复制 进程 0 而 来 的 。 在 复 
制 了 进程 后 ， 将 执行 kernel_ init， 相 关 代 码 如 下 : 


Tinlad ta 


static int ref kernel init (void *unused) 


人 


if (!run init process (ramdisk execute command)) 


} 


static int run init process (const char *init filename) 


argV init[0] = init filename; 
return kernel execve(init filename, argv init, envp init).,; 


} 


linux-3.7.4/fs/exec.c: 


int kernel execve (const char *fillename, ...) 


人 


ret = do execvel(lfilename, ...); 


根据 代码 可 见 ， 我 们 已 经 看 消 苞 了 ， 第 一 个 进程 的 创建 过 程 与 我 们 
在 用 户 空 间 创建 一 个 进程 并 无 本 质 区 别 ， 残 古 我 们 惯用 的 套路 : 


fork+exec。 


创建 进程 1 后 ， 内 核 调 用 函数 sechedule 让 进程 1 投入 运行 。 在 讨论 进 
程 1 的 投入 运行 前 ， 我 们 先 来 了 解 一 下 内 核 的 基本 调度 原理 ， 如 图 5-20 
所 示 。 
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TUN QUeUe 
图 5-20 内核 调 度 机 制 示 意图 


内 核 采 用 模块 化 的 方法 ， 将 任务 分 成 四 类 ， 优 先 级 从 高 到 低 分 别 是 
停止 类 (stop_sched_class) 、 实 时 类 (〈rt_sched_class) 、 公 平 类 
(fair_sched_class) 和 空闲 类 (idle_sched_class) 。 从 名 字 我 们 就 可 以 
判断 出 了 这 几 个 类 中 归属 的 任务 类 型 了 。 实 时 类 中 记录 的 是 实时 任务 ， 
一 般 的 任务 都 归 类 在 公平 类 中 ， 而 停止 类 和 空 闪 类 中 记录 的 是 两 个 特殊 
的 任务 。 


在 没有 其 他 任务 束 绪 时 ，CPU 将 运行 空 亲 类 中 的 任务 ， 该 任务 将 
CPU 兽 于 集 机 状态 ， 生 到 有 中 断 将 其 唤醒 。 而 集 止 类 中 的 任务 是 用 于 负 
载 均衡 或 者 进行 CPU 热 插 拔 时 使 用 的 任务 ， 顾 名 思 义 ， 其 目的 是 为 了 俘 


止 正在 运行 的 CPU， 以 进行 任务 迁移 或 者 插 拔 CPU。 每 个 CPU 分 别 只 有 
一 个 停止 任务 和 空闲 任务 。 


实时 类 和 公平 类 分 别 有 一 个 束 绪 队列 rt_rqg 和 cfs_rqg， 维 护 看 可 以 投 
入 运行 的 任务 。 每 个 就 绪 队 列 有 目 己 的 排队 算法 ， 比 如 公平 类 采用 红 黑 
树 对 束 绪 的 任务 进行 排队 。 


这 几 个 闫 组 成 了 一 个 链表 ， 其 中 最 高 优先 级 的 俘 止 类 作为 表 头 。 每 
个 CPU 有 一 个 就 绪 队 列 (run queue) ， 通 过 该 队列 ， 可 以 访问 实时 队 
列 、 公 平 队列 以 及 停止 任务 和 空 亲 任务 。 


每 当 调 度 发 生 时 ， 调 度 函 数 schedule 调 用 函数 pick_next task 按照 优 
和 匈 级 依次 过 历 各 个 茯 ， 找 出 下 一 个 投入 运行 的 任务 ， 代 码 如 下 : 


ljnux-3.7.4/kernel/sched/core.c: 


static inline struct task struct *pick next task (struct rq *rqg) 
const struct sched class *class; 
StrucE task BLIGE Wo 


if (likely (rq=Ssnr running == rq-Scfs.h nr running)) 1 
p = fair sched class.pick next task (rq); 
下 

return p; 


| 


for each class(class) { 
p = class->pick next task (rq); 
EE Toy 
TECUrN By 


先 看 函数 pick_next_ task 中 后 面 的 for 循 环 ， 显 然 这 是 在 壳 历 调度 
类 。Ppick_next_task 从 优先 级 最 高 的 停止 类 开 始 租 找 ， 每 个 类 提供 了 各 目 
的 国 数 pick_next task， 从 孢 绪 队 列 中 选择 需要 投入 运行 的 任务 。 


除非 用 在 特定 的 领域 ， 人 否则 大 部 分 任务 应 该 属于 公平 闪 ， 所 以 内 核 
开 及 人 员 对 调度 算法 进行 了 一 个 小 小 的 优化 : 如果 目前 系统 就 绪 的 任务 
部 属于 公平 类 ， 则 直接 从 公平 类 中 挑选 下 一 个 任务 。 这 束 是 for 循 环 前 面 
的 代码 片段 的 作用 。 


那么 进程 Oo 和 进程 1 分 列 部 是 属于 哪个 调度 类 呢 ? 看 下 面 的 代码 : 


lijnux-3.7.4/kernel/sched/core.c: 


VOId init sched init (void) 


| 


current->sched class = &failr sched class; 


} 


在 内 核 初 始 化 时 ， 在 调度 相关 的 初始 化 函数 sched_init 中 ， 进 程 0 的 
调度 类 被 设置 为 公平 类 ， 因 此 ， 在 从 进程 0 复制 后 ， 进 程 1 也 是 公平 类 ，。 
而 在 复制 完成 进程 1 后 ， 内 核 将 进程 0 的 调度 类 设置 为 空 箱 类， 代 伍 如 
下 : 


oP fs fe io Bh A eh 


static noinline void init refok rest init (void) 


kernel thread(kernel init, NULL, CLONE FS | CLONE SIGHRAND) ; 


init idle bootup task (current),; 


linux-3.7.4/kernel/sched/core.c: 


void cpuinit init idle bootup task(struct task struct *idle) 


( 
| 


idle->sched class = &idle sched class; 


在 调用 init_idle_bootup_task 设 置 了 进程 0 的 调度 类 后 ， 内 核 调 用 函 
数 schedule_preempt_disabled 进 行 调 度 ， 代 人 码 如 下 : 


5 


Statls nonline vord in Tatfok Let 3nLt (WoLd) 


kernel thread(kernel init, NULL, CLONE FS | CLONE SIGHRAND) ; 


init idle bootup task (current); 

schedule preempt disabled(); 

/* Call into cpu idle with preempt disabled */ 
cpu idle(); 


作为 公平 类 中 的 进程 1 显然 要 排 在 属于 空闲 类 的 进程 0 的 前 面 ， 
此 ， 在 这 次 调度 后 ， 进 程 1 将 被 调度 函数 选中 ， 作 为 下 一 个 投入 运行 的 
任务 。 而 当 系 统 没 有 其 他 就 绪 任 务 时 ， 将 返回 到 函数 
schedule_preempt_disabled 中 ， 继 续 执行 进入 函数 cpu_idle。cpu_idle 吏 是 
一 个 无 限 的 循环 ， 循 环 主体 就 是 CPU 停机 ， 等 待 下 一 次 被 唤醒 执行 任 


。 可 见 ， 进 程 0 的 主体 最 后 融 退 化 为 一 个 无 限 的 while 循 环 。 


5.4 ”进程 加 载 


根据 POSIX 标 准 的 规定 ， 操 作 系统 创建 一 个 新 进程 的 方式 是 进程 调 
用 操作 系统 的 fork 服 务 ， 复 制 当前 进程 作为 一 个 新 的 子 进程 ， 然 后 子 进 
程 使 用 操作 系统 的 服务 exec 运 行 新 的 程序 。 前 面 ， 我 们 看 到 内 核 已 经 静 
态 地 创建 了 一 个 原始 进程 ， 进 程 1 复制 这 个 原始 进程 ， 然 后 加 载 了 用 户 
空间 的 可 执行 文件 。 这 一 下 ， 我 们 残 来 探讨 用 户 进程 的 加 载 过 程 ， 大 致 
上 整个 加 载 过 程 包括 如 下 几 个 步骤 : 


1) 内 核 从 人 磁盘 加 载 可 执行 程序 ， 建 立 进程 地 址 空间 ; 


2) 如 果 可 执行 程序 是 动态 链接 的 ， 那 么 加 载 动 态 链接 器 ， 并 将 控 
制 权 转交 到 动态 链接 器 ; 


3) 动态 链接 如 音 定 位 上 日 号 ; 
4) 动态 链接 右 加 载 动态 库 a 到 进程 地 址 空间 ; 
5) 动态 链接 右 午 定位 动态 库 、 可 执行 程序 ， 然 后 跳 转 到 可 执行 程 


序 的 入 口 处 继续 执行 。 


在 本 万 中， 我 们 使 用 下 面 的 例子 探讨 用 户 进 程 的 加 载 。 


Fo ,Es 


int ooG2 = 20， 
void foo2 func() f{)} 
fo 


extern int foo2: 
nt fodl. := 10: 
int dummy 二 20，; 


vold fool func'l) 
nt a 三 oo02; 
int b = dummy:; 
Int cc = fool]:; 


to Tu (ty 


hello.c: 
#include <stdlib.h> 


extern int fool: 
ijnt a[l2048]; 
1nt dummy 10: 


vold mainl) 

| 
char *m = malloc(1024); 
fool = 5， 


fool func();} 
while (1) sleep(1000).,; 


我 们 分 别 将 fool.c 和 foo2.c 编 译 为 动态 库 ]ibf1.so 和 libf2.so， 将 hello.c 
编译 为 一 个 可 执行 程序 ， 命 令 如 下 : 


root@baisheng:~/demo# export LD LIBRARY PATH=$LD LIBRARY PATH:. 
root@baisheng:~/demo# gcc -shared -fPIC -o libf2.so foo2.c 
root@baisheng:~/demo# gcc -shared -fPIC -o libfl.so fool.c -L. -lf2 
root@baisheng:~/demo# gcc -o hello hello.c -L. -1f1 


因为 hello 要 链接 当前 目录 下 的 动态 库 libf1.so 和 libf2.so， 所 以 这 里 将 
当前 目录 添加 到 了 环境 变量 LD_LIBRARY_PATH 中 ， 告 诉 链接 器 寻找 
动态 库 时 ， 也 包括 当前 工作 目录 。 当 然 谈 者 也 可 将 这 个 定义 添加 到 文 
件 .bashrc 中 ， 每 次 登录 shell 时 将 目 动 定义 这 个 变量 ， 避 免 每 次 都 需要 手 
工 进行 定义 ， 实 现代 码 如 下 : 


/Oot / ,DaShre : 


export LD LIBRARY PATH=$LD LIBRARY PATH: . 


5.4.1 ”加 和 载 可 执行 程序 


一 个 进程 的 所 有 指令 和 数据 并 不 一 定 全 部 要 用 到， 比如 攻 些 处 理 错 
误 的 代码 。 才 些 错误 可 能 根本 不 会 友 生 ， 如 来 也 将 这 些 错 误 代 人 码 加 载 进 
内 存 ， 就 是 日 日 占据 内 存 资源 。 而 且 对 于 汞 些 特别 大 的 程序 ， 如 果 局 动 
时 全 部 加 载 进 内 存 ， 也 会 使 局 动 时 间 延 长 ， 让 用 户 难 以 狼 受 。 因 此 ， 凡 
核 初 始 加 载 可 执行 程序 《包括 动态 库 ) 时 ， 并 不 将 指令 和 数据 真正 的 加 


载 进 内 存 ， 而 仅仅 将 指令 和 数据 的 “地 址 ?加 载 进 内 存 ， 通 第 我 们 也 将 这 
个 过 程 形 象 地 称 为 映射 。 


对 于 一 个 程序 来 说， 虽然 其 可 以 寻 址 的 空间 是 整个 地 址 空间 ， 但 是 
这 只 是 个 范围 而 已 ， 瓯 比如 茶 个 核 层 的 房间 编号 可 能 是 4 位 的 ， 但 是 并 
不 意味 独 这 个 楼 层 0000~9999 号 房间 都 可 用 。 对 于 茶 个 进程 而 言 ， 一 般 
也 仅仅 使 用 了 地 址 空间 的 一 部 分 。 那 么 一 个 进程 如 何 知 道 自 己 使 用 了 哪 
些 虚 拟 地 址 呢 ? 这 个 问题 就 转化 为 是 谁 为 进程 分 配 的 运行 时 地 址 呢 ? 没 
音 ， 是 链接 器 分 配 的 ， 那 么 当然 从 ELEF 程 序 中 获取 了 。 所 以 内 核 首 先 将 
磁盘 上 ELEF 文 件 的 地 址 映射 进来 。 


除了 代码 段 和 数据 段 外 ， 进 程 运行 时 还 需要 创建 剑 存 局 部 变量 的 栈 
段 (Stack Segment) 以 及 动态 分 配 的 内 存 的 堆 段 (Heap Segment) ， 这 
些 段 不 对 应 任何 其 体 的 文件 ， 所 以 也 被 称 为 匿名 映射 段 (anonymous 
map) 。 对 于 一 个 动态 链接 的 程序 ， 还 会 依赖 其 他 动态 库 ， 在 进程 空间 


中 也 需要 为 这 些 动态 库 预 留 空 间 。 


通过 上 述 的 讨论 可 见 ， 进 程 的 地 址 空间 并 不 是 铁 板 一 块 ， 而 是 根据 
不 同 的 功能 、 权 限 划 分 为 不 同 的 段 。 某 些 地 址 根本 没有 对 应 任何 有 意义 
的 指令 或 者 数据 ， 所 以 从 程序 实现 的 角度 看 ， 内 核 并 没有 设计 一 个 数据 
结构 来 代表 整个 地 址 空间 ， 而 是 抽象 了 一 个 结构 体 vm_area_struct。 进 程 
空间 中 每 个 段 对 应 一 个 vm_area_struct 的 对 象 〈 或 者 叫 实例 ) ， 这 些 对 象 
组 成 了 “有 效 ” 的 进程 地 址 空间 。 进 程 运行 时 ， 衣 和 完 需 要 将 这 个 有 效 地 址 


空间 建立 起 来 。 


由 核 文 持 多 种 不 同 的 文件 格式 ， 每 种 不 同 格式 的 加 载 都 实现 为 一 个 
模块 。 比 如 ， 加 载 ELEF 格 式 的 模块 是 binfmt_elf， 加 载 脚本 的 模块 是 
binfmt_script， 它 们 都 在 内 核 的 fs 目录 下 。 对 于 每 个 要 加 载 的 文件 ， 内 核 
都 读 入 其 文件 头 部 的 一 部 分 信息 ， 然 后 依次 调用 这 些 模块 提供 的 函数 
load_binary 根 据 文 件 头 的 信息 判断 其 是 否 可 以 加 载 。 前 面 ，initramfs 中 
的 init 程 序 是 使 用 shell 脚 本 写 的 ， 显 然 ， 它 是 由 内 核 中 负责 加 载 脚 本 的 
模块 binfmt_script 加 载 。 模 块 binfmt_script 中 的 函数 指针 load_binary 指 向 
的 具体 函数 是 load_script， 代 码 如 下 : 


Ln Se To ES bi soniot a 


storLe Ln LT0ad CI 个 Di LIne DEnprm norte wd 


EE (Bprmn-sbut lo] te 4 || (Bprm- SbuflLi] be Ir) || seas}) 
return -ENOEXEC, 


for (cp = bprm->buf+2; (*cp == "' !) || (*cp == '\t'); 


file = open exec (interp),， 
bprm->fille = file,; 


return search binary handler (bprm,regs),; 


linux_binprm 是 内 核 设 计 的 一 个 在 加 载 程 序 时 ， 临 时 用 来 保存 一 些 
音 恩 的 结构 体 。 其 中 ，buf 中 保存 的 束 是 内 核 谈 入 的 要 加 载 程序 的 头 
部 。 枉 数 load_script 首 先 判 晰 buf， 也 束 是 文件 的 前 两 个 字符 是 人 否 


是 #1”?。 这 束 是 脚本 必须 以 叶 !* 开 头 的 原因 。 


如 果 要 加 载 的 程序 是 一 个 脚本 ， 则 ]oad_script 从 字符 #1” 后 的 字符 串 
中 解析 出 解释 程序 的 名 字 ， 然 后 重新 组 织 bprm， 以 解释 程序 为 目标 再 次 
调用 函数 search_binary_handler， 开 始 寻 找 加 载 解释 程序 的 加 载 缮 。 而 肢 
本 文件 的 名 字 将 被 当 作 解释 程序 的 参数 压 入 栈 中 。 


对 于 initramfs 中 的 init 程 序 ， 其 是 使 用 shell 脚 本 编号 的 ， 所 以 加 载 init 
的 过 程 转变 为 加 载 解释 程序 %binbash" 的 过 程 ， 而 init 脚 本 则 作为 bash 程 
序 的 一 个 参数 。 


可 见 ， 脚 本 的 加 载 ， 归 根 结 后 还 是 ELF 可 执行 程序 的 加 载 。 


ELF 文 件 “ 一 人 分 饰 二 角 ”， 既 作为 链接 过 程 的 输出 ， 也 作为 装载 过 
程 的 输入 。 在 第 2 草 中 ， 我 们 从 链接 的 角度 讨论 了 ELF 文 件 格 式 ， 当 时 
我 们 看 到 ELF 文 件 是 由 若干 Section 组 成 的 。 而 为 了 配合 进程 的 加 载 ， 
FLE 文 件 中 又 引入 了 Segment 的 概念 ， 每 个 Segment 包 含 一 个 或 者 多 个 
Section。 相 应 于 Section 有 一 个 Section Header Table，ELF 文 件 中 也 有 一 


个 Program Header Table 描 述 Segment 的 信息 ， 如 图 5-21 所 示 。 


ELF Header : 


| pHDR 下 Header Table 


站 LOAD(code) 于 
| LOAD(data) - 











.dynsym 


.rel.plt 





| dynaemic | 





.got.plt 


Section Header Table 


图 5-21 ELF 文 件 中 的 Seement 与 Section 





Program Header Table 中 有 多 个 不 同类 型 的 Segment， 但 是 如 采 仔 细 
观察 匈 5-21， 我 们 会 及 现 ， 两 个 次 型 为 LOAD 的 Segment 基 本 闻 关 了 整个 
ELEF 文 件 ， 而 一 些 Section， 如 ".comment"、".symtab" 等 ， 包 括 Section 
Header Table， 只 坪 链接 时 需要 ， 加 载 时 并 不 需要 ， 上 所 以 没有 包 售 到 任 
何 Segment 中 。 基 本 上 ， 这 两 个 类 型 为 LOAD 的 Segment， 在 上 映射 到 进程 
地 址 空间 时 ， 一 个 映 届 为 代码 段 ， 一 个 映射 为 数据 段 : 


急 代码 段 〈code segment) 其 有 谈 和 可 执行 权限 ， 但 是 除了 保存 指 
令 有 的 Section 外 ， 一 些 仅 具有 只 读 属 性 的 Section， 比 如 记录 解释 问 名 了 字 
的 ".interp"， 动 态 侍 号 表 ".dynsym"， 以 及 章 定 位 表 ".rel.dyn"、".rel.plt"， 
甚至 是 ELF Header、Program Header Table， 也 包含 到 了 这 个 段 中 。 这 些 
是 程序 加 载 和 和 章 定 位 时 需要 的 信息 ， 随 看 讨论 的 深入 ， 我 们 慢 慢 融会 理 
解 它 们 的 作用 。 


仿 数据 上 段 (data segment) 具有 旋 写 权限 ， 除 了 典型 保存 数据 的 
Section 外 ， 一 些 具 有 读 写 权限 的 Section， 如 GOT 表 ， 也 包含 到 这 个 段 
中 。 


除了 这 两 个 LOAD 类 型 的 Segment 外 ，ELF 规 范 还 规定 了 几 个 其 他 的 
Segment， 它 们 都 是 辅助 加 载 的 。 仔 细 观 察 Program Header Table， 我 们 
会 及 现 ， 其 他 类 型 的 Segment 都 包括 在 LOAD 关 型 的 段 中 。 所 以 ， 在 加 


载 时 ， 内 核 只 需要 加 载 LOAD 类 型 的 Segment。 


内 核 中 加 载 ELF 可 执行 文件 的 代码 如 下 : 


linux-3.7.4/fs/binfmt elf.c: 


Statie: Lint Lod elf Dinaryv (truct. Tum Dinprm *bprm; sd) 


人 


if (memcmp (Joc->elft ex.e ident, ELFMAG, SELFMAG) != 0) 
goto out ; 


retval = kernel read (bprm->file, loc->elf ex.e Phoftt， 
(char *)elf phdata, size); 


for(i = 0, elf ppnt = elf phdata; 
i < loc->elf ex.e phnum; i++, elf ppnt++) { 


if (elf ppnt->p type != PT LOAD) 


continue; 
error = elf map (bprm->file, load bias + vaddr, elf ppnt, 


elf prot, elf flags, 0); 


孙 数 load_elf_binary 自 完 检测 文件 尖 部 信息 ， 判 断 是 侍 是 ELF 类 
型 的 文件 ， 包 括 进 一 步 检 测 是 个 是 ELE 的 可 执行 文件 或 者 动态 库 等 。 


2) 经 过 一 八 性 检查 ， 如 果 确 认 是 ELF 可 执行 文件 ，load_elf_binary 
证 入 Program Header Table。 


3) load_elf_binary 授 历 Program Header Table， 调 用 疯 数 elf_map 映 
奈 类 型 为 PT_LOAD 的 段 到 进程 地 址 空间 。elf_map 为 每 个 段 创 建 一 个 
vm_area_struct 对 象 ， 其 第 二 个 参数 融 是 段 在 进程 地 址 空间 中 映射 的 地 


址 ， 这 个 地 址 在 编译 时 链接 器 整 已 经 分 配 好 了 。 加 载 偏 移 load_bias 是 用 
于 动态 库 的 ， 对 于 可 执行 文件 来 说 ，load_bias 值 是 0。 


事实 上 ， 除 了 映 映 ELF 文 件 中 的 段 到 进程 地 址 空间 外 ， 内 核 还 创建 
了 其 他 几 个 进程 运行 时 必 不 可 少 的 段 ， 包 括 BSS、 栈 和 扒 三 个 匿名 段 ， 
以 及 为 动态 库 及 文件 映射 预 留 的 内 存 映 射 区 域 ， 这 个 区 域 中 一 般 包 含 多 


个 段 。 


(1) 栈 段 


起 初 ， 内 核 将 栈 安排 在 用 户 衬 间 的 最 顶端 ， 即 栈 底 在 0xc0000000。 
后 来 为 了 安全 起 见 ，Linux 使 用 了 ASLR (Address Space Layout 
Randomization) 技术 。ASLR 是 一 种 针对 缓冲 区 癣 出 的 安全 你 护 技术 ， 
在 进程 的 地 址 空间 中 ， 挫 、 栈 、 和 内存 映 射 等 段 不 再 分 配 固定 的 地 址 ， 而 
是 在 每 次 进程 启动 时 ， 在 原来 的 位 置 上 加 上 一 个 随机 的 偏 移 ， 增 加 攻击 
者 确定 这 些 段 的 位 置 的 难度 ， 从 而 达到 阻止 溢出 攻击 的 目的 。 


创建 栈 段 的 vm_area_struct 对 象 的 代码 如 下 : 


linux-3.7.4/fs/exec.c: 


Static TI Tp tm IniC(Struet, Tinux BInprem *bpem) 


{ 


bprm->vma = Vma = kmem cache zalloc(vm area cachep, ...}; 


vma->vm end = STACK TOP MAX:; 
vma->vm start = vma->vm end - PAGE SIZE; 


疯 数 _bprm_mm_init 为 栈 创 建 了 一 个 vm_area_struct 对 象 ， 栈 的 初始 


大 小 是 一 个 页 面 (PAGE SIZE) ， 栈 底 在 STACK _TOP MAX。 
STACK TOP _ MAX 的 值 如 下 : 


linux-3.7.4/arch/x86/include/asm/processor.h: 


#define TASK SIZE PAGE OFFSET 
#define TASK SIZE MAX TASK SIZE 
Hdefine STACK TOP TASK SIZE 
Hdefine STACK TOP MAX STACK TOP 


其 中 PAGE_OFFSET 的 值 束 古 内 核 在 进程 空间 中 的 偏 移 ， 妈 
0xc0000000， 也 束 是 用 户 空 间 的 最 顶 疹 。 但 是 接 下 来 在 将 参数 、 


人 


环境 变 


量 所 在 的 页 面 映 里 到 新 进程 的 栈 空 旧时 ， 内 核对 栈 段 的 位 置 进行 了 随机 


化 处 理 ， 代 人 码 如 下 : 


二 王 DUO- 357 AfBAbinfmt ee 于 二 EC 


statire: int load. elf DERnarzyAtBtEUCt Linux binprm wbprms Fo) 


人 


retval = setup arg pages (bprm, 
randomize stack top(STACK TOP), executable Stack) ; 


} 
linux-3.7.4/fs/exec.c: 


int. Setup arg pages (struct linux binprm *bprm, sws) 


人 


stack top = arch align stack(stack top); 


x86 涤 构 的 函数 arch_align_stack 的 代码 如 下 : 


linux-3.7.4/arch/x86/kernel/process.c: 


unsigned long arch align stack (unsigned long sp) 


人 


if (!(current->personality & ADDR NO RANDOMIZE) && 
randomize va space) 
sp -= get random int() % 8192; 


return sp & ~0Oxf,; 


根据 其 中 使 用 黑体 标识 的 部 分 可 见 ， 栈 段 的 地 址 被 进行 了 随机 处 
理 。 另 外 ， 注 意 i 条 件 中 的 变量 randomize_va_space， 用 户 可 以 通过 proc 
文件 系统 中 的 接口 改变 这 个 变量 ， 从 而 可 以 动态 控制 内 核 的 这 个 特性 。 


在 程序 运行 时 ， 当 进行 压 栈 操作 时 ， 如 果 栈 空间 不 足 ， 将 引起 缺 页 
中 断 。 缺 页 中 断 处 理 函 数 调用 贞 数 expand_stack 扩 展 栈 段 ， 代 但 如 下 : 


inux-3.7 4/arch/xe6 mm/fault CC: 


static void kprobes do page fault (struct pt regs *regs, ...) 


人 


if (unlikely (expand stack (vma, address))) { 


(2) BSS 段 


BSS 段 保存 的 是 未 初始 化 的 数据 ， 所 以 BSS 段 并 不 需要 从 文件 中 读 
取 数 据 ，BSS 也 并 不 需要 映射 到 文件 ， 故 BBS 段 也 古 一 个 匿名 映 射 段 。 
但 是 注意 一 点 ， 并 不 是 每 个 进程 都 需要 创建 BSS 段 。 如 果 程 序 中 根本 整 
没有 未 初始 化 数据 ， 那 么 自然 束 不 需要 创建 BSS 段 。 或 者 程序 中 未 初始 
化 数据 占据 的 空间 被 数据 段 的 对 齐 部 分 履 盖 ， 也 不 需要 创建 数据 段 。 假 
设 可 执行 文件 中 数据 段 的 结束 地 址 为 : 


Ox804a028 


按照 数据 段 的 页 对 齐 要 求 ， 在 进程 地 址 空间 中 对 齐 后， 数据 段 的 疆 
束 地 址 为 : 


0X804D000 


如 果 从 0x804a028 到 0x804b000 之 间 的 这 段 空 间 已 经 窗 兽 了 全 部 的 未 
初始 化 数据 ， 那 么 就 不 必 再 创建 BSS 段 了 。 


子 数 load_elf_binary 中 创建 BSS 段 的 相关 代码 如 下 : 


11inUx-3.7 .4/ES8/BDinfmt. elf. 6 


ol Seats ne Dong Ls LDREY ,sd 
0 


04 struct elf Phdr *elf ppnt, *elf phdata; 
06 elf bss 
07 elf brk 


古风 
Ws 


09 for(i = 0, elf ppnt = elf phdata; 
10 i < loc->elf ex.e phnum; i++, elf ppnt++) { 


eB kK = elf ppnt->p vaddr + elf ppnt->p filesz; 


14 2E WK S LE BAB) 
Li elf bss = k; 


上 池 K = elf ppnt->p vaddr + elf ppnt->p memsz; 
18 iE£ tk >» a1£ DEK) 

19 elf brk = k; 

20 } 


2 retval = set brkl(lelf bss, elf brk); 


代码 第 9~20 行 毅 历 ELF 文 件 的 Program Header Table， 其 中 elf_phdr 
是 指向 表 Program Header Table 中 的 Program Header 的 指针 ，elf_ppnt-> 
p_vaddr 是 段 在 进程 地 址 空间 中 的 起 始 地 址 ，elf_ppnt->p_filesz 是 段 在 
ELF 文 件 中 占据 的 尺寸 ，elf_ppnt- 之 p_ memsz 记 录 的 是 段 在 内 存 中 占据 
Hy 


对 于 ELE 可 执行 程序 而 言 ， 这 个 for 循 环 将 循环 两 次 ， 第 一 次 映射 代 
但 段 ， 第 二 次 映射 数据 段 。 因 此 ， 在 第 二 次 循环 后 ， 第 12 行 代码 中 的 变 
量 k 的 值 是 数据 段 的 起 始 地 址 (VirtAddr) 与 数据 段 〈 不 包含 BSS) 的 大 


小 《FEileSiz) 的 和 ， 并 在 第 15 行 代码 将 这 个 信 记 录 在 变量 elf_bss 中 。 

17 行 代码 中 变量 Kk 的 人 是 数据 段 的 起 始 地 址 〈VirtAddr) 与 数据 段 (包含 
BSS) 的 大 小 〈MemSsiz) 的 和 ， 并 在 第 19 行 记录 在 变量 elf_brk 中 。 喧 
然 ，elf_bss 指 癌 不 包含 BSS 数 据 的 数据 段 的 结束 位 置 ， 而 elf_brk 指 同 包 
侣 BSS 数 据 的 数据 段 的 结束 位 置 。 然 后 ，load_elf binary 调 用 函数 set_brk 
比较 elf_bss 和 elf_brk。 看 到 brk 这 个 词 是 不 是 有 点 似 兽 相识? 没 错 ，brk 
束 古 program break， 即 代表 程序 动态 申请 地 址 的 上 限 。 那 么 BSS 段 和 brk 
有 关系 吗 ? 为 什么 在 映射 BSS 段 时 出 现 了 brk? 当然 有 ， 因 为 BSS 段 的 末 
尾 束 是 brk 的 起 始 地 址 。 函 数 set_brk 的 代码 如 下 : 


11inux-3.7.4/fe/binfnt 已 工 二 .3 


static int set brk(unsigned long start, unsigned long end|) 
人 
start = ELF PAGEALIGN (StaLtt) ; 
end = ELF PAGEALIGN (end) :; 
if (end % atarty 二 
unsigned long addr., 
addr = vm brk(start, end = start); 
if (BAD ADDR (addr)) 
return addr; 
| 
current->mm->start brk = current->mm->brk = end; 
Feurn V3 


set_brk 对 比 经 过 页 对 齐 后 的 elf_bss 和 elf_ brk。 如 果 对 齐 后 前 者 不 能 
涵盖 后 者 ， 则 调用 函数 vm_brk 创 建 单 独 的 BSS 段 ， 为 BSS 段 创建 一 个 


VvVm_struct_area 对 象 。 


结构 体 mm_struct 中 的 start_brk 用 来 记录 堆 段 的 起 始 位 置 ， 变 量 brk 记 


录 堆 段 的 结束 位 置 。 根 据 函 数 set_brk 的 代码 可 见 ， 初 始 化 时 ， 堆 的 起 始 
位 置 和 结束 位 置 都 挟 BSS 段 的 结束 位 置 。 在 程序 动态 申请 内 存 时 ， 内 核 
再 投 需 扩 展 扒 的 六 小 。 


(3) 堆 段 


堆 段 映射 的 内 存 是 进程 运行 时 动态 分 配 的 ， 所 以 在 建立 进程 的 地 址 
空间 时 ， 只 需 确定 堆 段 的 起 始 位 置 即 可 。 根 据 前 面 讨论 的 函数 set_brk， 
初始 时 ， 堆 的 起 始 位 置 和 结束 位 置 都 指向 BSS 段 的 结束 位 置 。 在 进程 运 
行 时 ， 根 据 程序 动态 申请 内 存 情况 动态 的 调整 堆 的 大 小 。 比 如 程序 调用 
C 库 的 malloc/free 函 数 动 态 分配 和 释放 内 存 时 ， 事 实 上 就 是 通过 内 核 的 
系统 调用 brk/sbrk 动 态 改变 堆 的 大 小 。 


由 于 安全 的 原因 ， 堆 段 也 使 用 了 ASLR 技 术 ， 所 以 这 个 位 置 一 般 并 
不 紧 接 在 BSS 的 后 面 ， 而 是 叉 加 了 一 个 随机 的 偏 移 ， 代 码 如 下 : 


linux-3.7.4/fs/binfmt elf.c: 
static int lead elf binary (struct linux binprm *hbprm; :| 


人 


if((current->flags & PF RANDOMIZE) && (randomize va space > 1)){ 
Current->mm->brk = current->mm->start brk = 
arch randomize brk(current->mm); 


| 


根据 上 面 的 代码 可 见 ， 如 果 变 量 randomize_va_space 的 值 大 于 1， 则 


调用 体系 结构 相关 的 图 数 arch _ randomize brk 将 start brk 和 brk 调 整 到 一 个 
随机 的 值 。IA32 架 构 中 的 函数 arch randomize brk 实 现 如 下 : 


linux-3.7.4/arch/x86/kernel/process.c: 
unsigned long arch randomize brk(struct mm struct *mm) 


unsigned long range end = mm->brk + 0x02000000 ; 
return randomize range (mm->brk, range end, 0) ? : mm->brk; 


| 


内 核 在 proc 中 为 用 户 提 供 了 一 个 接口 ， 人 允许 用 户 修改 变量 
randomize_ va_space， 从 而 可 以 动态 控制 内 核 的 这 个 特性 。 


(4) 内 存 映射 区 域 


进程 空间 中 还 专门 留 有 一 个 区 域 用 于 内 存 映 射 ， 比 如 文件 映 册 、 共 
胖 内 存 等 ， 动 态 库 融 映射 在 这 个 区 域 。 内 存 了 映射 区 域 一 般 包 侣 多 个 
vm_struct_area 对 象 。 比 如 一 个 程序 依赖 多 个 动态 库 ， 那 么 束 会 有 多 个 动 
态 库 觅 射 到 这 里 。 而 且 即 使 是 同一 个 动态 库 ， 也 存在 痢 如 代码 段 、 效 扼 


段 等 多 个 段 。 


对 于 X86 架 构 ， 在 2.4 厂 本 时 ， 内 存 映 射 区 域 的 起 始 地 址 是 固定 的 ， 
在 内 核 用 户 空 间 的 13 处 ， 即 0xc0000000/3=0x40000000。 从 2.6 版 本 以 
后 ， 内 核 将 这 个 区 域 安 排 在 了 栈 段 的 下 方 。x86 架 构 下 确定 内 存 映 射 区 
域 的 基 址 的 函数 如 下 : 


linux-3.7.4/arch/x86/mm/mmap.c: 


void arch pick mmap layout (struct mm struct *mm) 


{ 


if (mmap is legacy()) { 

mm->mmap base = mmap legacy base() ; 
} else { 

mm->mmap base = mmap base(); 


在 函数 arch_pick_mmap_layout 中 ， 让 代码 块 中 对 应 的 就 是 内 核 传 统 
的 (2.4 版 本 ) 确定 内 存 映 射 区 域 起 始 位 置 的 方法 ， 而 else 代 码 其 对 应 的 
则 是 从 2.6 版 本 开始 使 用 的 方法 。 根 据 代码 可 见 ， 在 2.6 版 本 下 ， 确 定 这 
个 位 置 的 函数 是 mmap_base， 其 代码 如 下 : 


linux-3.7.4/arch/x86/mm/mmap.c: 


01 static unsigned long mmap base (Vold|) 


和 二 

03 unsigned long gap = rlimit (RLIMIT STACK); 

04 

05 if (gap < MIN GAP) 

06 gap = MIN CAP:; 

07 else if (gap > MAX GAP) 

08 gap = MAX CAP:; 

09 

10 return PAGE ALIGN(TASK SIZE - gap - mmap rnd()); 
: 


根据 第 3 行 代码 可 见 ， 内 核 取 出 进程 的 栈 的 上 限 ， 然 后 将 内 存 映射 
区 域 安 排 在 栈 的 下 方 。 内 核 默 认 进 程 栈 的 大 小 是 8MB， 但 是 每 个 进程 都 
可 以 通过 系统 调用 ulimit 设 置 进程 的 各 项 资源 ， 包 丘 栈 的 大 小 。 所 以 在 
分 配 内 存 映射 的 基 址 时 ， 凡 核 首 乞 章 重 进程 的 意愿 ， 调 用 rlimit 该 取 了 


进程 设置 的 栈 的 上 限 。 但 是 ， 内 核 可 不 能 由 大 用 户 的 性 子 来 ， 毕 苋 资 源 
有 限 ， 内 核 还 要 判断 用 户 设 置 的 栈 空间 是 否 合 理 ， 这 就 是 代码 第 5~8 行 
的 目的 。 我 们 看 到 ， 内 核 要 求 进程 空间 中 ， 栈 的 最 小 尺寸 是 
MIN_GAP， 而 最 大 尺寸 是 MAX_GAP。 这 两 个 宏 的 定义 如 下 : 


linux-3.7.4/arch/x86/mm/mmap.c: 


#define MIN GAP (128*1024*1024UL + stack maxrandom slize()) 
#define MAX GAP (TASK SIZE/6*5) 


可 见 ， 和 内 核 给 栈 预 留 的 空间 最 小 是 128MB， 节 大 是 


TASK_ SIZE/6*5=3GB/6*5=2.5GB。 


好 后， 内 核 调 用 也 数 mmap_rnd 计 算 了 一 个 随机 的 偏 移 ， 加 在 了 内 
人 存 映 射 的 基 址 上 ， 见 第 10 行 代码 。 也 了 吏 是 说 ， 内 存 映 射 区 域 ， 内 核 也 使 
用 了 ASLR 技 术 。 


综 上 ， 进 程 的 地 址 空间 大 致 如 独 5-22 所 示 。 
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图 5-22 进程 的 地 址 空间 示意 图 


在 图 5-22 中 ， 进 程 地 址 空间 中 有 效 的 部 分 使 用 实 线 标 出 ， 虚 线 部 分 
征 尚 未 映射 的 部 分 。 因 为 数据 段 可 能 普兰 了 BSS， 上 所 以 映射 BSS 的 
vm_area_struct 对 象 也 使 用 虚线 标 出 ， 表 示 在 程序 映射 时 ， 可 能 并 不 会 建 
YYBSS 段 。 另 外 ， 在 内 存 映 射 区 域 ， 图 中 只 示意 性 地 列 出 了 C 库 和 动态 


链接 器 中 的 部 分 段 的 映射 ， 其 他 段 的 映射 并 没有 列 出 ， 所 以 也 使 用 了 一 
个 虚线 标 出 的 vm_area_struct 对 象 代 表 其 他 的 映射 。 


最 后 ， 我 们 以 可 执行 程序 hello 为 例 ， 具 体 观察 一 下 进程 的 地 址 空 
间 。 


首先 来 看 一 下 hello 的 Program Header Table: 


root@baisheng:~/demo# readelf -1 hello 


Program Headers: 
Type Offset VirtAddr physAddr FileSiz MemSiz Flg Align 
PHDR Ox000034 0x08048034 Ox08048034 0X00120 Ox00120 R E Ox4 
INTERP Ox000154 Ox08048154 Ox08048154 Ox00013 0O0x00013 R Oxl 


[Requesting program interpreter: /lib/ld-linux.so.2] 


LOAD Ox000000 0x08048000 0x08048000 0x0079c Ox0079c R E Ox1000 
LOAD 0x000f00 0x08049f00 Ox08049f00 0x0012cCc 0x02160 RW 0x1000 
DYNAMIC 0x000foc 0x08049f0c Ox08049fOc 0x000f0 0x000f0 RW 0x4 
NOTE Ox000168 Ox08048168 0X08048168 0X00044 0X00044 有 0X4 


GNU EH FRAME Ox0006a8 0X080486a8 0O0x080486a8 Ox00034 0X00034 R 0X4 
GNU STACK Ox000000 Ox00000000 0x00000000 0x00000 0x00000 RW 0x4 
GNU RELRO Ox000f00 Ox08049f00 0x08049ft00 0x00100 0x00100 R Oxl1 


虽然 hello 的 Program Header Table 中 包含 了 多 达 9 个 段 ， 但 是 正如 我 
们 前 面谈 到 的 ， 其 中 只 有 类 型 为 LOAD 的 段 才 会 被 映射 进 内 存 。hello 中 
包含 两 个 类 型 为 LOAD 的 段 ， 根 据 "Flg" 一 列 可 见 ， 第 一 个 LOAD 类 型 的 
段 具 有 读 和 可 执行 权限 CRE) ， 瞻 射 为 进程 中 的 代码 段 ， 第 二 个 LOAD 
类 型 的 段 具 有 读 写 权限 (RW) ， 映 射 为 进程 中 的 数据 上段。 事实 上 ， 
LOAD 类 型 的 段 已 经 涵盖 了 全 部 ELF 文 件 中 需要 加 载 进 内 存 的 部 分 。 其 
他 几 个 段 完全 是 为 了 辅助 加 载 用 的 ， 要 么 包含 在 代码 段 中 ， 要 么 包含 在 
数据 段 中 。 


代码 段 的 起 始 地 址 是 0x08048000， 结 束 地 址 是 
0x08048000+0x0079c=0x804879c。 根 据 列 "Align" 可 见 代 码 段 要 求 4KB 对 
齐 ， 起 始 地 址 已 经 是 4KB 对 齐 的 ， 无 须 调 整 ， 而 结束 地 址 则 需要 从 
0x804879c 调 整 为 0x8049000。 


数据 段 的 起 始 地 址 是 0x08049f00， 结 束 地 址 是 
0x08049f00+0x0012c=0x0804a02c。 根 据 列 "Align" 可 见 数据 段 也 要 求 
4KB 对 齐 ， 所 以 数据 段 的 起 始 地 址 需要 调整 为 0x08049000， 结 束 地 址 需 
要 调整 为 0x0804b000。hello 的 BSS 段 为 8244 字 节 
(0x02160~0x0012c) ， 显 然 数 据 段 对 齐 的 那 部 分 已 经 不 能 涵盖 未 初始 
化 数据 了 ， 因 此 需要 创建 一 个 单独 的 BSS 段 。 


下 面 我 们 将 hello 程 序 运行 起 来 ， 结 合 前 面 的 理论 分 析 ， 实 际 观察 一 
下 其 进程 地 址 空间 的 映射 。 


root@baisheng:~/demo# ./hello & 


[1] 4822 


root@baisheng:~/demo# cat /proc/4822/maps 


08048000-08049000 
08049000-0804a000 
0804a000-0804b000 
0804b000-0804d000 
0985e000-0987f000 
b75a4000-b75a5000 
b75a5000-b75a6000 
b75a6000-b75a7000 
b75a7000-b75a8000 
b75a8000-b75a9000 
b75a9000-b774c000 


r-xp 00000000 08: 
:OE 


r--p 00000000 08 


rw-p 00001000 08: 
rw-p 00000000 00: 
rw-p 00000000 00: 
:00 
2 


rw-p 00000000 00 
r-xp 00000000 08 


r--p 00000000 08: 
e200 


rw-p 00001000 08 


rw-p 00000000 00: 
:O01 


r-xp 00000000 08 


01 


01 


00 


00 


01 


00 


1054223 /root/demo/hello 
1054223 /root/demo/hello 
1054223 /root/demo/hello 
0 

0 [heap] 

0 


1054350 /root/demo/libf2.so 
1054350 /root/demo/libf2.so 
1054350 /root/demo/libf2.so 
0 

523958 


/lib/i386-linux-gnu/libc-2.15.so 

-=-BD 001a3000 08:01 523958 
/lib/i386-linux-gnu/libc-2.15.so 

b774d000-b774f000 YXY--p 001a3000 08:01 523958 
/lib/i386-linux-gnu/libc-2.15.so 

b774f000-b7750000 rw-p 001a5000 08:01 523958 
/lib/i386-linux-gnu/libc-2.15.so 


b774c000-b774d000 


b7750000-b7753000 
b7768000-b7769000 
b7769000-b776a000 
b776a000-b776b000 
b776b000-b776d000 
b776d000-b776e000 
b776e000-b778e000 


b778e000-b778£000 
b778£f000-b7790000 


bf92a000-bf94b000 


根据 输出 可 见 : 


1) 地 址 范围 0x08048000~0x08049000 具 有 读 和 可 执行 权限 ， 显 然 就 


是 进程 的 代 公 段 。 


2) 地 址 范围 0x0804a000~0x0804b000 有 具有 读 写 权限 ， 是 进程 的 数据 


x 


3) 在 代码 段 和 数据 段 之 间 映 冉 了 一 人 


rw-p 00000000 00 


r-xp 00000000 08: 
st 


r--p 00000000 08 


rw-p 00001000 08: 
:00 


rw-p 00000000 00 


r-xp 00000000 00: 
r-xp 00000000 08: 
/lib/i386-linux-gnu/ld-2.15. 
r--p 0001f000 08: 
/lib/i386-linux-gnu/ld-2.15. 
rw-p 00020000 08: 
/lib/i386-linux-gnu/l1d-2.15. 
:00 


rw-p 00000000 00 


:O00 


01 


01 


00 
01 
SO 
01 
SO 
01 
SO 


0 
1047105 /root/demo/libf1.so 
1047105 /root/demo/l1libf1.so 
1047105 /root/demo/libfl1.so 
0 


0 [vdso] 
523936 

523936 

S523936 

0 [stack] 


只 谈 的 段 : 


0x08049000~0x0804a000。 虽 然 这 个 段 是 读 的 ， 但 是 广义 上 其 属于 数据 
段 ， 这 个 只 不 过 是 从 数据 段 中 划分 的 一 个 子 段 ， 称 为 段 RELRO， 访 者 
可 暂 不 天心， 我 们 在 5.4.9 节 会 讨论 进程 空间 映射 这 个 段 的 缘由 。 


4) 地 址 范围 0x0804b000~0x0804d000 具 有 读 写 权限 ， 而 且 是 个 匿名 
映射 段 ， 紧 接 在 数据 段 后 面 ， 而 且 正 好 占据 8KB 大 小 的 空间 ， 我 想 读 者 
己 经 猜 到 了 ， 其 束 是 体 存 程序 hello 中 未 初始 化 的 全 局 数组 a[2048] 的 BSS 
段 。 读 者 可 以 做 个 实验 ， 去 掉 程 序 hello.c 中 的 这 个 数组 ， 然 后 重新 编译 
运行 ， 驶 可 发 现 hello 进 程 将 无 需 再 映射 单独 的 BSS 段 。 


5) 地 址 范围 0x0985e000~0x0987f000 具 有 读 写 权限 ， 显 然 也 是 保存 
数据 的 ， 根 据 后 面 的 字 串 "heap"， 读 者 应 该 可 以 猜 到 ， 这 个 段 是 hello 进 
程 的 堆 段 。 读 者 也 可 作 个 实验 ， 去 挥 程序 hello.c 中 使 用 mallo 动 态 分 配 的 
1024 个 字 闻 ， 然 后 重新 编译 运行 ， 就 可 发 现 堆 段 也 将 不 再 被 映射 。 前 面 
我 们 谈 到 过 ， 堆 是 程序 运行 时 动态 分 配 的 ， 所 以 如 采 程 序 中 尚未 在 堆 中 
申请 变量 ， 内 核 将 不 会 主动 为 进程 映射 堆 段 ， 只 是 首先 确定 好 堆 的 基 
址 ， 在 需要 时 按 需 动态 映射 。 


6) 接 下 来 ， 束 是 一 个 大 的 内 存 映射 区 域 了 : 
0xb75a4000~0xb7790000， 在 这 个 区 域 中 ， 了 映射 了 C 库 、 动 态 链 接 髓 以 及 
动态 库 libf1 和 1libf2P2。 对 于 每 个 动态 库 来 说 ， 其 映射 过 程 与 可 执行 程序 并 
无 本 质 着 别 ， 仔 细 观 察 ， 可 以 及 现 ， 每 个 动态 库 也 有 目 己 的 代码 段 、 数 
据 段 等， 其 具体 映射 过 程 我 们 在 加 载 动态 库 一 节 再 讨论 。 


进程 空间 中 最 后 映射 的 一 个 段 : 0xbf92a000~0xbf94b000， 具 有 
读 写 权限 ， 也 是 保存 数据 的 ， 根 据 后 面 输出 字 串 "stack" 可 知 ， 这 个 段 就 
是 栈 段 。 


最 后 ， 我 们 留意 栈 段 的 起 始 地 址 : 0xbf94b000。 理 论 上 ， 栈 底 应 该 
在 用 户 空间 的 最 顶端 ， 即 0xc0000000， 但 是 为 什么 不 是 这 个 地 址 呢 ? 请 
读者 回想 一 下 我 们 前 面谈 到 的 ASLR 技 术 ， 栈 底 在 0xc0000000 的 基础 上 
减 去 了 一 个 随机 的 仿 移 。 


与 此 相仿 的 还 有 推 段 和 内 存 映 射 部 分 。 读 者 可 以 做 个 实验 ， 多 次 局 
动 hello 程 序 ， 你 会 发 现 ， 每 次 这 几 个 段 的 起 始 地 址 全 都 不 同 。 每 次 进程 
启动 时 ， 都 会 在 原来 的 理论 地 址 上， 再 加 了 一 个 随机 的 偏 移 。 


内 核 在 proc 文 件 系 统 中 为 用 户 提供 了 一 个 接口 ， 人 允许 用 户 动态 控制 

售 使 用 ASLR 技 术 。 这 个 接口 可 以 接收 3 个 参数 : 0 代表 关闭 ASLR 技 
术 ; 1 代表 内 存 映 射 区 域 、 栈 和 vdso 段 的 起 始 地 址 是 随机 的 ; 2 表示 堆 段 
起 始 地 址 也 是 随机 的 。 以 笔者 的 机 器 为 例 ， 其 默认 值 为 2: 


root@baisheng:~# cat /proc/sys/kernel/randomize va space 
2 


读者 可 以 采用 下 面 的 方法 ， 关 闭 ASLR: 


root@baisheng:~# echo 0 > /proc/sys/kernel/randomize va space 


然后 ， 即 使 多 次 局 动 同 一 个 程序 ， 但 是 这 儿 个 段 的 地 址 也 不 再 随机 
变动 了 。 


站 核 还 保留 了 2.4 碑 本 的 分 配 内 存 了 映射 区 域 的 方法 ， 用 户 也 可 以 通 
过 下 面 的 方法 使 用 传统 的 方法 : 
root@baisheng:/proc/sys# echo 1 > /proc/sys/vm/legacy va layout 
使 用 下 面 的 命令 关闭 传统 的 内 存 映 射 机 制 : 
root@baisheng:/proc/sys# echo 0 > /proc/sys/vm/legacy va_layout 


限于 扁 幅 ， 我 们 瓯 不 再 一 一 列 出 开局 和 关闭 这 些 参数 后 ， 进 程 空间 
的 映射 情况 ， 访 者 可 目 行 进行 这 些 非 常 有 趣 的 实验 。 


5.4.2 ”进程 的 投入 运行 


丑 妃 妇 总 是 要 见 公 次 的 ， 进 程 最 终 一 定 征 要 切换 到 用 户 空 间 的 ， 进 
程 1 也 又 不 过 去 。 在 内 核 创建 进 程 1 时 ， 进 程 0 是 当前 进程 ， 因 此 ， 进 程 1 


要 “ 回 到 ?用户 空 间 ， 南 要 经 过 两 个 步骤: 


1) 要 将 进程 0 赶 出 CPU。 也 束 是 在 内 核 空 间 ， 进 程 1 要 “恢复 ”为 当 


前 进程 ， 这 是 进程 1“ 返 回 * 用 户 空 间 的 前 所 条 件 。 
2) 进程 1 从 内 核 空间 * 回 到 ?用户 空间 。 


显然 ， 从 进程 0 恢复 ”到 进程 1 需要 进程 1 在 内 核 空 间 的 现场 ， 进 程 1 
从 内 核 空 间 “ 回 到 ”用户 空 间 需 要 进程 1 在 用 户 空 间 的 现场 。 但 是 ， 事 实 
上 , 不 仪 是 进程 1， 对 于 所 有 刚刚 创建 的 进程 ， 它 们 并 没有 经 历 过 从 用 
尸 空间 切 到 内 核 空间 ， 然 后 在 内 核 空间 被 其 他 进程 抢占 的 过 程 ， 哪 里 来 
的 保护 现场 ?所 以 ， 束 需要 操作 系统 助 它 们 一 各 之 力 ， 人 为 地 为 新 创建 
的 进程 伪 志 现场 。 


这 一 记 ， 我 们 自 先 来 看 看 在 这 两 次 转换 过 程 中 ， 保 护 现场 的 原理 。 
然后 ， 我 们 再来 讨论 内 核 是 如 何在 原理 的 指引 下 伪造 这 两 个 现场 的 。 事 
实 上 ， 不 仅 进 程 1 如 此 ， 其 他 进程 也 如 此 ， 这 里 的 讨论 适用 于 所 有 进 


程 。 


1. 用 户 现场 的 保护 


我 们 通过 讨论 一 个 进程 从 用 户 空 间 切 换 到 内 核 空 间 来 观察 用 户 现场 
是 如 何 你 护 的 。 


(1) 从 用 户 栈 切换 到 内 核 栈 


当 一 个 进程 正在 用 户 空间 运行 时 ， 一 旦 发 生 中 断 ， 那 么 进程 将 从 用 
户 空 间 切 换 到 内 核 空 间 运行 。 进 程 在 内 核 空间 运行 时 ，CPU 和 名 个 寄存 器 
同样 将 被 使 用 ， 因 此 ， 为 了 在 处 理 完 中 断后 ， 程 序 可 以 在 用 户 空间 的 中 
断 处 得 以 继续 执行 ， 需 要 在 穿越 的 一 刻 保护 这 些 寄存 器 的 值 ， 以 免 被 履 
兰 ， 即 押 谓 的 保护 现场 。Linux 使 用 进程 的 内 核 栈 保存 进程 的 用 户 现 
场 。 因 此 ， 在 中 断 时 ，CPU 做 的 第 一 件 事 束 是 将 栈 从 用 户 栈 切换 到 内 核 
栈 ， 如 图 5-23 所 示 。 


SS 


USer space 
state 





GDT 
cpy USER_DS | 


下 User Space 下 


Process Address Space 


图 5-23 从 用 户 栈 切换 到 内 核 栈 


Intel 从 硬件 层面 设计 了 TSS 段 (task-state segment) 支持 任务 的 管 
理 ， 其 中 记录 了 任务 的 状态 信息 。 既 然 是 一 个 段 ， 每 个 TSS 也 在 GDT 中 
鼎 扼 一 个 表 项 。 如 同 代 码 段 将 段 选择 子 保存 在 寄存 匿 CS 中 ，CPU 要 求 将 
TSS 段 选择 了 保存 在 专用 寄存 右 TR (Task Register) 中 。 


Intel] 建 议 为 每 一 个 进程 准备 一 个 独立 的 TSS 段 ， 每 当 任务 切换 时 ， 
更 换 CPU 中 TR 寄 存 器 指向 当前 任务 的 TSS 段 。 天 下 没有 免费 的 午餐 ， 方 


便 的 代价 束 生 效率 的 低下 。 而 事实 上 ， 任 务 切 换 时 ， 本 不 必 保 和 存 如 TSS 
中 包含 的 如 此 复杂 的 上 下 文 ， 而 且 TR 寄 存 器 的 格式 比较 特殊 ， 远 非 直 
接 寂 入 一 个 地 址 那么 简单 ， 还 十 要 进行 一 些 计 算 ， 因 此 切换 TR 的 代价 
也 比较 大 。 因 此 ，Linux 并 没有 使 用 TSS 段 保存 任务 状态 信息 。 


但 是 当中 断 发 后 时 ，CPU 目 动 从 任务 寄存 器 TR 中 找到 TSS 段 ， 然 后 
从 该 段 中 装载 s 和 esp。 “我 的 地 盘 听 我 的 ”， 所 以 Linux 还 要 遵从 Intel 
的 “霸王 ?条 和 妹 ， 必 须 得 使 用 TSS。 但 是 Linux 处 理 得 比较 巧妙 ， 其 并 没有 
为 每 个 任务 设计 一 个 TSS 段 ， 而 征 为 每 个 CPU 准备 一 个 TSS 段 。 内 核 只 
是 在 初始 化 阶段 设置 TR， 使 之 指 同 一 个 TSS 段 ， 从 此 以 后 水 不 改变 TR 
的 内 容 。TSS 段 的 初始 内 容 如 下 : 


linux-3.7.4/arch/x86/include/asm/processor.h: 


#define INIT TSS  { \ 


X86 tss = 1 \ 
.Sp0 = izeof (i1nit: atack) +. Iong)}&init. stack; \ 
.Ss0 = KERNEL DS, \ 
.SS1 = KERNEL CS ， \ 
.IO bitmap base = INVALID IO BITMAP OFEFSET， 
}, \ 
.io bitmap = { [0 ... IO BITMAP LONGS] = ~0 }, \ 


内 核 初 始 化 时 ， 在 函数 cpu_init 中 初始 化 了 TR 寄存 器 ， 代 人 码 如 下 : 


linux-3.7.4/arch/x86/kernel/cpu/common.c: 


es CHL, Cr Lit CWSLy 


Btruckt Eas truct WE = Epher cpa(init taBr CPU 


set tss desc(cpu, t); 
load TR desc(); 


—— 


其 中 ， 函 数 set tss_desc 设 置 GDT 中 的 TSS 段 的 描述 符 ， 函 数 


load TR _desc 设 置 TR 寄 存 器 。 


虽然 TSS 不 需要 切换 了 ， 但 是 TSS$ 中 的 ss 和 sp0 却 需要 随 着 任务 的 切 
换 ， 走 马 灯 式 地 更 换 ， 记 录 下 一 个 投入 运行 的 任务 的 内 核 栈 的 ss 和 sp0。 
这 样 ， 就 保证 了 在 中 断 发 生 时 ，CPU 可 以 正确 地 从 TSS 中 加 载 当 前 进程 
内 核 栈 的 ss 和 esp。 在 宏 INIT_TSS 中 ，TSS 段 中 记录 的 内 核 栈 的 ss0 被 设 
置 为 “KERNEL _DS， 所 以 这 里 ss0 永 远 不 需要 改变 ， 只 需 切 换 sp0 即 
可 。 可 见 ，TSS 征 “ 铁 打 的 宫 盘 ， 流 水 的 兵 ”。 


但 是 不 知道 谈 者 思考 过 没有 ， 当 中 断 及 生 时 ， 当 CPU 从 TSS 段 中 加 
载 ss0 和 sp0 分 别 到 ss 和 esp 时 ， 疝 未 保存 用 户 现 场 ， 那 么 此 时 保存 在 ss 和 
esp 中 的 用 户 栈 的 信息 岂 不 是 被 履 兰 了 ? Intel 的 工程 师 们 当然 清楚 这 一 
点 ， 事 实 上 ，CPU 在 加 载 内 核 栈 信 息 前 ， 会 将 寄存 器 ss 和 esp 中 的 值 首 移 
临时 人 和 存 到 CPU 内 部 ， 除 了 保存 寄存 如 ss 和 esp 的 值 外 ，CPU 临 时 人 存 的 
还 包括 寄存 器 eflags、cs、eip 中 的 值 。 


经 


这 一 步 后 ， 进 程 已 经 完成 了 栈 的 切换 ， 进 程 在 问 内 核 空间 前 进 


et 


(2) 保存 用 户 空 间 的 现场 


切换 完 栈 后 ，CPU 在 进程 的 内 核 栈 中 保存 了 进程 在 用 户 空间 执行 时 
的 现场 信息 ， 包 括 eflags、cs、eip、ss 和 esp， 如 图 5-24 所 示 。 


一 


Usel SpacCe 


state KERNEL DS 





| USer Space = 


Process Address Space 


图 5-24 保存 用 户 空间 的 现场 


在 进程 退出 内 核 空 间 时 ， 中 段 处 理 函 数 最 后 会 调用 x86 的 指令 iret 将 


CPU 压 入 的 这 几 个 值 恢复 到 对 应 的 军 存 莓 中 。 
(3) 军 越 中 断 门 


接 下 来 ， 进 程 束 将 进行 最 后 的 穿越 了 ， 当 然 ， 内 核 在 彻 始 化 时 束 已 
经 为 CPU 人 初始 化 了 中 断 相 关 的 部 分 ， 代 人 码 如 下 : 


linux-3.7.4/arch/x86/kernel/head 32.8: 


01 ENTRY (startup 32) 


02 

03 lidt 1dt descr 

D04 

日 二 Setup Onees 

06 movl] $1idt table,$®edi 

07 movl1 searly idt handlers,%eax 

08 movl1 SNUM EXCEPTION VECTORS, Secx 

四 号 计 

10 moOV1 %eax, (Sed1i) 

Tl mo Seax,4(%edi) 

2 mov1 $(0x8E000000 + KERNEL CS),2 (%edi) 

13 addl $9,%eax 

14 addl $8,%edi 

5 Lo TD 

16 

4 movl1 $256 - NUM EXCEPTION VECTORS, %ecx 

和 movl1 S$ignore int,%edx 

9 movl1 S$( KERNEL CS << 16),%eax 

20 movw %dx, Sax /* selector = 0x0010 = CS */ 
2 moOVww SO0X8E00 , 当 QxX /* interrupt gate - dpl=0, present */ 
这 

23 mo %eax, (Sed1i) 

24 movl1 %edx,4(%ed1i) 

25 addl $8,%edi 

26 1oep 2b 

wd a 

28 Ld SoBer: 

wy .word IDT ENTRIES*8-1 # idt contains 256 entries 
30 .long idt table 


代码 第 6~26 行 初始 化 中 断 描述 符 表 idt_table， 其 包含 256 项 ， 每 一 项 
均 是 一 个 64 位 的 描述 符 。CPU 运 行 过 程 中 ， 可 能 有 多 种 情况 需要 中 断 正 


在 执行 的 指令 ， 转 而 移 去 处 理 中 断 。 包 括 外 部 设备 来 的 信号 ， 或 者 是 执 
行 指令 时 发 生 了 异常 ， 如 发 和 后 了 除数 是 0 的 情况 。 因 此 ， 中 断 描 述 符 表 
中 包括 几 种 不 同 的 描述 符 ， 但 是 大 同 小 异 。 这 些 摘 述 符 也 被 称 为 门 摘 述 
人 (gate descriptor) ， 以 中 断 门 为 例 ， 其 格式 如 图 5-25 所 示 。 


31 1615141312 





1 16 15 


Segment Selector Offset 15..0 0 0 


图 5-25 中 断 门 格式 


对 于 图 5-25， 重 点 关注 其 中 两 个 字段 ， 一 个 是 "Segment Selector"， 

这 个 是 段 选择 子 ， 也 就 是 对 应 这 个 中 断 的 处 理 函 数 所 在 的 段 ， 另外 一 个 
是 "Offset"， 其 表示 的 是 中 断 处 理 函 数 在 段 内 的 偶 移 。 因 为 Linux 使 用 的 
征 平 坦 和 内存 模式 ， 段 基 址 为 0， 所 以 实际 上 这 个 段 内 偶 移 就 是 中 断 处 理 
因数 的 地 址 。 


上 面 代码 中 包 侣 两 个 loop 和 循环， 填充 了 256 项 中 上 断 摘 述 符 。 每 个 门 
的 段 选择 子 都 是 _KERNEL_ CS， 只 有 中 晰 处 理 函 数 不 同 。 前 
NUM_EXCEPTION_VECTORS 项 对 应 的 中 断 处 理 函数 是 
early_idt_handlers， 其 余 项 的 中 断 处 理 函 数 是 ignore_int。 这 两 个 函数 都 


是 内 核 初始 化 早期 的 临时 中 断 处 理 函 数 ， 在 内 核 建 立 好 基本 环境 后 ， 会 
使 用 真正 的 中 断 处 理 函 数 普 换 这 些 临时 的 ， 代 码 如 下 : 


linux-3.7.4/arch/x86/kernel/traps.c: 


vold init trap init (void) 


人 


set lintr gate{lX86 TRAP TS, &invalild TS8); 
set intr gateX86 TRAP NP, &segment not present); 


中 断 描述 符 表 构建 完成 后 ， 内 核 还 需要 将 其 地 址 告诉 CPU，CPU 中 
为 此 设计 了 一 个 专用 寄存 器 idtr。 除 了 中 断 描述 表 的 地 址 外 ， 当 然 还 需 
要 将 这 个 表 长 度 也 载 入 这 个 寄存 器 。x86 设 计 了 指令 lidt 来 加 载 idt 寄 存 


器 ， 见 函数 startup_32 代 码 中 的 第 3 行 。 


了 解 了 中 断 门 的 数据 结构 后 ， 我 们 就 很 容易 理解 在 穿越 中 断 门 的 一 
和 判 那 ，CPU 的 所 作 所 为 了 。CPU 首 先 将 根据 寄存 器 IDTR， 找 到 中 断 描 
述 符 表 。 然 后 以 中 断 癌 量 作为 下 标 ， 在 中 上 断 描述 符 表 中 找到 对 应 的 门 ， 
CPU 将 其 中 的 段 选 择 子 加 载 到 寄存 器 cs， 将 其 中 的 侦 移 地 址 加 载 到 寄存 
人 锅 eip， 如 图 5-26 所 示 。 


ls 


| KERNEL CC» ™ 


> Idt descr 


load 


Segment Selector 


Offset 





CPU 
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图 5-26 穿越 中 断 门 
经 过 这 一 步 后 ， 进 程 彻 确 的 罕 越 到 了 内 核 空间 。 


因为 Linux 没 有 使 用 TSS， 所 以 除了 CPU 目 动 将 cs、eip 等 几 个 寄存 器 
压 入 栈 外 ， 中 断 处 理 函 数 需 要 将 其 他 的 寄存 器 也 压 入 内 核 栈 ， 保 存 进 程 
完整 的 用 户 空 间 的 现场 。 在 进程 退出 内 核 空间 时 ， 中 段 处 理 函 数 负责 将 
其 压 入 栈 的 这 些 值 再 恢复 到 相应 的 寄存 问 中 。 


2. 内 核 现场 的 保护 


当 进 程 在 内 核 空 间 运 行 时 ， 在 友 生 进程 切换 时 ， 依 然 需 要 保护 切换 
走 的 进程 的 现场 ， 这 和 是 其 下 次 运行 的 起 点 。 那 么 进程 的 内 核 现 场 你 存在 
哪里 合适 呢 ? 前 面 我 们 看 到 进程 的 用 户 现场 保存 在 进程 的 内 核 栈 ， 那 么 
进程 的 内 核 现场 当然 也 可 以 保存 在 进程 的 内 核 栈 。 


但 是 ， 当 调度 函数 准备 切换 到 下 一 个 进程 时 ， 下 一 个 进程 的 内 核 栈 
的 栈 指针 从 何 而 来 ?在 前 面 讨论 进程 从 用 户 空间 切换 到 内 核 空间 时 ， 我 
们 看 到 ，CPU 从 进程 的 TSS 段 中 获取 内 核 栈 的 栈 指 针 。 那 么 当 在 内 核 罕 
间 发 生 切 换 时 ， 调 度 函 数 如 何 找到 准备 切入 进程 的 内 核 栈 的 栈 指 针 ? 


除了 进程 的 内 核 栈 外 ， 进 程 在 内 核 中 始终 存在 万 外 一 个 数据 结构 
一 一 进程 的 户口 ， 即 任务 结构 。 因 此 ， 进 程 的 和 内核 栈 的 栈 指针 可 以 保存 
在 进程 的 任务 结构 中 。 在 任务 结构 中 ， 特 意 抽 象 了 一 个 结构 体 
thread_struct 来 你 存 进程 的 内 核 栈 的 栈 指 针 、 返 回 地 址 等 关键 信 息 。 


调度 函数 使 用 宏 switch_to 切 换 进 程 ， 我 们 来 仔细 观察 以 下 这 上段 代 
僻 ， 为 了 看 起 来 更 清晰 ， 删 除了 代码 中 的 注释 : 


linux-3.7.4/arch/x86/include/asm/switch to.h: 


01 #define Switch tol(prev, next, last) 和 

0 B30 i N 
03 asm volatile("pushfl\n\t" \ 

04 "pushl] %%ebp\n\t" \ 
05 "mov]1] %%esp,%[prev SP] \n\t" \ 
06 mov %S[next sp],%%esp\n\t" \ 
07 mowvl Sif SEprewv Fp] Nnvt" 
08 "pushl %[next ip]j \n\t" 和 
09 switch canary \ 
10 "jmp switch to\n" % 
i ris\tE" \ 
2 "popl %%ebp\n\t" % 
| "popfl\n' \ 
14 i % 
1 : [prev sp] "=m" (prev->thread .sp), \ 
16 [prev ip] "=m" (prev->thread.1ip), “ 
| -本 \ 
18 : [next sp] "mm" (next->thread.sp), 二 
19 [next ip] "m" (next->thread.ip), 二 
20 1 \ 


在 每 次 进程 切换 时 ， 调 度 函 数 将 准备 切 出 的 进程 的 寄存 器 esp 中 的 
值 保 存在 其 任务 结构 中 ， 见 第 5 行 代码 。 然 后 从 下 一 个 投入 运行 的 进程 
的 任务 结构 中 恢复 esp， 见 第 6 行 代 码 。 除 了 栈 指针 外 ， 程 序 下 一 次 恢复 
运行 时 的 地 址 也 有 一 点 点 复杂 ， 不 仅仅 是 简单 的 保存 eip 中 的 值 ， 有 一 
些 复杂 情况 需要 考虑 ， 比 如 稍 后 我 们 会 看 到 对 于 新 创建 的 进程 ， 其 恢复 
运行 的 地 址 的 设置 。 所 以 调度 函数 也 将 eip 保 存 到 了 任务 结构 中 ， 第 7 行 
代码 就 是 保存 被 切 出 进程 下 次 恢复 时 的 运行 地 址 。 第 8 行 代码 和 第 10 行 
的 jmp， 以 及 函数 _ switch_to 最 后 的 ret 指 令 联手 将 投入 运行 的 进程 的 地 
址 ， 即 next- 之 thread. 记 ， 人 恢复 到 寄存 器 eip 中 。 


除了 eip、esp 外 ， 宏 switch_ to 将 其 他 寄存 硕 如 eflags、ebp 等 体 存 到 


了 进程 内 核 栈 中 。 


每 次 中 断 时 ，CPU 会 从 TSS 段 中 取出 当前 进程 的 内 核 栈 的 栈 指 针 ， 
办 此， 当 友 生 任务 切换 时 ，TSS 段 中 的 esp0 的 值 也 要 更 新 为 下 一 个 投入 
运行 任务 的 内 核 栈 的 栈 指针 。 在 宏 switch_ to 中， 即 上 面 第 10 行 代码 处 ， 
调用 函数 ”switch_to 的 目的 融和 是 设置 TSS 段 中 的 esp0: 


linux-3.7.4/arch/x86/kernel/process 32.c: 


tracs CO tak otro * BRLEE oles od 


人 

load SPpP0 (tsSS，Dext) ; 
} 
linux-3.7.4/arch/x86/include/asm/processor.h: 


static inline void load sp0(...) 


{ 
} 


native load sp0(tss, thread),; 


static nline vod native Load. BpO(s ss) 


{ 


tss->x86 tss.sp0 = thread->sp0; 


| 


综 上 ， 进 程 在 内 核 中 的 切换 过 程 如 图 5-27 所 示 ， 其 中 next 表 示 即 将 
投入 运行 的 任务 ，prev 表 示 当 前 任务 ， 但 是 马上 将 被 切 出 。 被 切 出 进程 
下 一 次 恢复 运行 时 的 地 址 并 不 一 定 是 束 是 当前 指令 指针 中 的 地 址 ， 所 以 
图 中 eip 使 用 了 虚线 ， 其 表达 的 意图 融 是 进程 恢复 运行 时 的 地 址 也 保存 
在 了 进程 的 任务 结构 中 。 


TSS | sp0 
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图 5-27 内 核 中 的 进程 切换 
3. 伪 造 现场 


我 们 移 来 看 看 内 核定 如 何 伪造 内 核 现场 的 。 其 实 伪造 内 核 现场 只 需 
要 伪造 三 个 关键 的 地 方 : 进程 恢复 运行 时 的 地 址 ， 即 eip; 进程 的 内 核 
栈 的 栈 指针 ， 这 个 无 需 解 释 了 ， 进 程 当 然 需要 知道 目前 的 栈 顶 在 哪里 ; 
最 后 还 要 准备 内 核 栈 的 栈 铺 ， 为 了 日 后 在 进程 返回 到 用 户 空 间 后 ， 及 生 
中 新 时 ，CPU 可 以 找到 内 核 栈 ， 从 内核 栈 的 栈 展 开始 保 人 存 用 户 现场 。 


根据 前 面 的 讨论 ， 如 图 5-27， 在 调度 器 调度 下 一 个 进程 投入 运行 
时 ， 即 宏 switch_to 中 ， 将 从 下 一 个 投入 运行 的 进程 的 任务 结构 的 
thread_struct 中 加 载 sp 到 寄存 器 esp; 加 载 ip 到 寄存 器 eip; 并 在 这 个 宏 调 
用 的 函数 _switch_to 中 ， 将 TSS 段 中 的 sp0 指 同 thread_struct 中 的 sp0。 
此 ， 要 伪造 这 三 个 数据 ， 只 需 设 置 任务 结构 中 的 结构 体 thread_struct 中 
下 面 几 个 值 即 可 : 


linux-3.7.4/arch/x86/include/asm/processor.h: 
struct thread struct 1 


unslgned long sp0; 


unsigned long Sp; 
unsigned long ip; 


进程 的 任务 结构 在 复制 进程 时 创建 ， 因 此 ， 这 几 个 数据 在 复制 进程 
时 伪造 是 再 合适 不 过 了 。 复 制 进程 时 ， 与 结构 体 thread_struct 相 天 的 复 
制 函 数 为 copy_thread， 其 代码 如 下 : 


linux-3.7.4/arch/x86/kernel/process 32.c: 

O01 工科 此 Copy tiireadl ss Btruct 七 SR Struct “ph; struct pt T6098 *regay 
02 { 

03 struct pt regs *childregs = task pt regs (p); 


05 p->thread.sp = (unsigned long) childregs, 
06 p->thread.sp0 = (unsigned long) (childregs+1),， 


08 if (unlikely(!regs)) { 
10 p->thread.ip = (unsigned long) ret from kernel thread; 
12 } 


14 p->thread.ip = (unsigned long) ret from fork; 


先 来 看 一 下 结构 体 pt_regs， 这 个 结构 体 就 是 为 了 解释 内 核 栈 底 部 保 
存 的 进程 的 用 户 现场 而 设计 的 ， 其 中 的 字段 完全 按照 压 栈 的 各 个 寄存 器 
的 顺序 设计 。 第 3 行 代码 中 的 宏 task_pt_regs 就 是 获取 内 核 栈 中 pt_regs 
的 ， 并 使 用 childregs 指 向 这 个 区 域 。 


显然 ， 第 5 行 代码 是 在 伪造 栈 指针 。 第 6 行 代码 古 在 为 TSS 段 伪造 内 
核 栈 的 栈 展 。 但 是 这 两 个 变量 的 人 可 能 让 人 有 些 困 惑 ， 我 们 通过 图 5-28 
来 直观 展示 一 下 。 


TS99 sp0 一 | childregs + 1 
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图 5-28 进程 内 核 模 


根据 图 5-28 可 见 ，childregs 是 进程 在 内 核 态 运行 时 使 用 的 内 核 栈 的 
栈 撒 。childregs+1 征 在 childregs 的 基础 上 ， 同 地 址 增 大 方 癌 偶 移 一 个 
pt_regs 的 大 小 。 也 就 是 说 ， 从 childregs 到 childregs+1 正 是 给 伪造 用 户 现 
场 预 留 的 空间 。 


函数 copy_thread 中 的 第 10 行 和 第 14 行 都 是 在 为 新 复制 的 进程 伪造 返 
回 时 的 运行 地 址 。 只 不 过 第 10 行 是 针对 内 核 线程 的 ， 从 进程 0 复制 进程 
就 属于 这 种 情况 。 函 数 ret_from_kernel_thread 与 ret_from_fork 唯 一 的 不 同 
是 ，ret_from_kernel_thread 在 返回 到 用 户 空 间 前 ， 其 将 执行 一 个 函数 ， 
然后 才 恢 复 进 程 的 用 户 现 场 ， 具 体 如 下 : 


linux-3.7.4/arch/x86/kernel/entry 32.3: 
ENTRY (ret from kernel thread) 
call *PT EPX (Sesp) 


ENDPROC (ret from kernel thread) 


PT_EBX(%esp) 丈 是 pt_regs 中 寄存 器 ebx 处 的 什 ， 显 然 ， 这 个 值 是 一 
个 函数 地 址 。 那 么 ， 这 个 新 复制 的 进程 ， 在 返回 用 户 空 间 之 前 到 搬 执 行 
了 一 个 什么 函数 呢 ? 在 函数 copy_thread 伪 造 esip 时 ， 其 实 已 经 设置 了 寄存 
器 ebx 的 值 : 


linux-3.7.4/arch/x86/kernel/process 32.c: 


01 int copy thread (unsigned long clone flags, unsigned long sp, 

02 unsigned long arg, struct task struct *p, struct pt regs *regs) 
03 { 

04 struct pt regs *childregs = task pt regs (P) ; 

5 

06 if (unlikely(!regs)) { 

07 Nr 

08 p->thread.ip = (unsigned long) ret from kernel thread; 
09 i 

LD childregs->bx = sp; /* function */ 

江水 

12 } 

3 

二 


寄存 器 ebx 中 保存 的 是 函数 copy_thread 的 第 2 个 参数 sp， 我 们 再 来 看 


看 这 个 参数 是 什么 : 


DI .nel fork es 


static struct task struct *copy process (unsigned long clone flags, 
unsigned long stack start, ...) 


retval = copy thread(clone flags, stack start, ...); 
} 


long do fork (unsigned long clone flags, 
unsigned long stack start, ...) 
{ 


p = Copy process (clone flags, stack start, ...); 


我 们 来 回顾 一 下 进程 1 的 创建 过 程 : 


linux-3.7.4/init/main.c: 


statice noinline void init refok rest init (void) 


人 


kernel thread (kernel init, NULL, CLONE FS | CLONE SIGHAND) ; 


} 


LinNON=3 .7 /Re EGR 


pid 七 kernel thread(int (*fn) (void *), void *arg, 。..) 


人 
return do fork (fags |CLONE VM|CLONE UNTRACED, 
(unsigned long)fn, NULL, ...); 


可 见 ， 寄 存 占 ebx 中 你 和 存 的 是 函数 kernel_init 的 地 址 。 而 恰恰 是 
kernel_init， 开 局 了 创建 进程 的 第 二 阶段 ， 即 exec 的 过 程 。 也 束 古 说 ， 在 
复制 进程 后 ， 在 返回 用 户 空 间 之 前 ， 内 核 开局 了 了 exec 过程 ， 加 载 可 执行 
程序 。 与 我 们 编 与 普通 程序 时 ， 在 复制 之 后 ， 使 用 exec 执 行 新 的 程序 姑 


曲 辣 工 。 


显然 ， 在 加 载 可 执行 程序 之 后 ， 和 是 一 个 念 造 用 户 现 场 的 合理 时 机 。 
因为 ， 只 有 这 个 时 候 ， 才 知 并 新 执行 的 程序 的 入 口 地 址 ， 也 就 是 进程 切 
换 到 用 户 空 间 后 的 执行 地 址 。 而 且 ， 也 只 有 在 进程 的 地 址 空间 建立 好 之 
后 ， 才 能 知道 进程 的 用 户 栈 的 位 章 。 相 天 代码 如 下 : 


linux-3.7;4/fs/binfmt elf.c: 


static int load elf binary ‘(struct J]inux binprm “bprm; ws») 


| 


start thread(lregs, elf entry, bprm=Sp}:} 


在 加 载 了 可 执行 艾 件 后 ， 岗 数 load_elf_binary 人 确定 了 进程 在 用 户 空 
间 的 入 口 elf_entry， 也 确定 了 进程 的 用 户 栈 所 在 的 位 置 bprm- 宝 p， 然 后 
调用 函数 start_thread 伪 造 进 程 的 用 户 空间 的 现场 ， 代 码 如 下 : 


linux-3.7.4/arch/x86/kernel/process 32.c: 


void start thread(struct pt regs *regs, unsigned long new 1P， 
unsigned long new sp) 


人 


set user gs (regs, 0); 


regs->fs = 0; 

regs->ds = USER DS ; 
regs->6e8 = USER DS; 
regs->ss = USER DS; 


上 
业 
[0 
nn 
| 
Vv 
(7 
Nn 
中 


USER CS ; 
new 1p; 
regs-»>sp = new _ SP; 


Fs 
Dm 
On 
| 
Vv 
上 
tg 
ll 


在 困 数 start_thread 中 ， 各 个 段 寄 存 人 右 均 被 设置 为 了 了 用户 空间 的 段 ， 
进程 的 栈 也 指向 了 用 户 空间 的 栈 。 于 是 ， 在 ret_from_kernel_thread 最 
后 ， 从 进程 的 内 核 栈 恢复 用 户 现场 时 ， 进 程 被 彻底 打 回 原形 ， 从 天 上 掉 
到 了 人 间 ， 进 程 又 作 回 了 凡人 ， 在 用 户 空间 从 入 口 地 址 elf_entry 处 开始 
执行 。 


5.4.3 ” 按 圾 载 入 指令 和 数据 


在 建立 进程 的 地 址 空间 时 ， 我 们 看 到 ， 欠 核 仅 仅 是 将 地 址 映射 进 
来 ， 没 有 加 载 任 何 实际 指令 和 数据 到 内 存 中 。 这 主要 还 是 出 于 效率 的 考 
夸 ， 一 个 进程 的 所 有 指令 和 数据 并 不 一 定 全 部 要 用 到 ， 比 如 东 些 处 理 钳 
误 的 代码 。 示 些 错误 可 能 根本 不 会 肥 生 ， 如 果 也 将 这 些 错误 代码 加 载 进 
内 存 ， 束 是 日 日 占据 内 存 资 源 。 而 且 特 别 对 于 作 些 大 型 程序 ， 如 果 局 动 
时 全 部 加 载 进 内 存 ， 也 会 使 月 动 时 间 延 长 ， 让 用 户 难 以 狼 有 党。 所以， 在 
实际 需要 这 些 指令 和 数据 时 ， 内 核 才 会 通过 缺 页 中 新 处 理 函 数 将 指令 和 
数据 从 文件 按 需 加 载 进 内 存 。 这 一 市 ， 我 们 束 来 其 体 讨论 这 一 过 程 。 


1. 获 取 引 起 缺 页 卉 第 的 地 址 


IA32 架 构 的 缺 页 中 断 的 处 理 函 数 do_page_fault 调 用 函数 
do_page_fault 处 理 缺 页 中 断 ， 相 天 代 码 如 下 : 


linux-3.7.4/arch/x86/mm/fault.c: 


01 static void kprobes do page fault (struct pt regs *regB8, ...,) 


O02 4 

03 区 六 二 

04 address = read cr2(); 

05 

06 vma = find vma (mm，adadqress) ; 

07 if (unlikely(!vma)) { 

08 bad area (regs, error code, address),; 

09 return,; 

10 } 

Il If (likely(vma->vm start <= address)) 

12 goto good area; 

13 if (unlikely(! (vma->vm fags & VM GROWSDOWN))) { 
14 bad area (lregs, error code, address); 

1 5 return; 

16 } 

ey ee 

18 if (unlikely (expand stack (vma, address))) { 
19 bad areal(lregs, error code, address); 

20 return; 

wl } 

局 局 < 

23 good area: 

224 Ea 

2 fault = handle mm fault (mm, vma, address, ilags); 
26 

27 } 


在 发 生 缺 页 中 汤 时 ， 寄 存 器 CR2 中 保存 的 是 引起 缺 页 中 断 的 线性 地 
址 。 因 此 ， 第 4 行 代码 首先 到 寄存 器 CR2 中 读 取 线性 地 址 。 然 后 ， 函 数 
do_page_fault 检 得 这 个 地 址 的 合法 性 ， 判 晰 条 件 束 是 这 个 地 址 是 否 在 
霖 个 vma 的 范围 内 。 注 意 这 里 的 函数 find_vma， 它 从 映射 进程 地 址 空间 
压 部 的 vm_area_struct 对 象 开始 人 衣 历 ， 妆 找到 第 一 个 结束 地 址 恰好 要 大 于 
寞 第 地 址 、 但 是 却 是 最 接近 这 个 寞 弟 地 址 的 vm_area_struct 对 象 时 ， 
束 将 这 个 对 象 返 回 。 如 果 找 不 到 这 样 一 个 vm_area_struct 对 象 ， 那 么 束 说 
明 这 个 地 址 是 非法 的 ， 内 核 将 同 进 程 肥 送 SIGSEGV 信 写 ， 这 是 程序 运 


行 时 出 现 segment fault 的 原因 之 一 ， 见 代 人 码 第 6~10 行 。 


如 果 找 到 了 一 个 vm_area_struct 对 象 ， 并 有 旦 引起 异常 的 这 个 地 址 也 大 
于 这 个 vm_area_struct 对 象 的 起 始 地 址 ， 那 么 束 说 明 这 个 地 址 恰好 在 其 泣 
兰 的 范围 内 ， 直 接 跳 转 到 标号 good_area 处 ， 见 代码 第 11~12 行 。 


但 是 ， 假 如 引起 异常 的 这 个 地 址 小 于 vm_area_struct 对 和 象 的 起 始 地 
址 ， 那 也 不 能 一 棍子 打 死 ， 我 们 还 要 给 它 一 次 机 会 。 在 前 面 讨论 栈 段 的 
创建 时 ， 我 们 已 经 看 到 ， 内 核 初始 只 为 进程 分 配 了 一 个 页 面 大 小 的 罕 
间 ， 因 此 ， 其 完全 有 可 能 是 一 次 压 栈 换 作 ， 但 是 栈 空间 疯 未 映射 具体 的 
物理 地 址 ， 如 图 5-29 所 示 。 


Kernel space 


vm area struct 





Process address space 


图 5-29 栈 异常 


那么 如 何 判 断 这 个 vm_area_struct 对 象 是 否 是 代码 的 栈 段 呢 ? 那 就 要 
看 其 成 员 vm_flags 中 是 否 设 置 了 VM_GROWSDOWN 这 个 标志 。 如 果 这 
个 vm_area_struct 对 象 是 栈 段 ， 则 首先 对 栈 进 行 扩展 。 代 码 第 13~21 行 整 
是 处 理 这 种 特殊 情况 的 。 


2. 更 新 页 表 


在 复制 子 进 程 时 ， 子 进程 也 需要 复制 或 者 共 至 父 进 程 的 页 表 。 如 来 
没有 页 表 ， 子 进程 寸步 难 行 ， 指 令 或 者 数据 的 地 址 根本 没有 办 法 映 冉 到 
物理 地 址 ， 更 不 用 提 从 物理 内 存 读 取 指 令 了。 当 子 进程 蔡 换 (exec) 为 
一 个 新 的 程序 时 ， 无 论 子 进程 是 共 圣 或 者 复制 了 父 进 程 的 幢 表 ， 了 于 进程 
都 需要 创建 新 的 页 表 。 创 建 页 表 的 函数 如 下 : 


linux-3.7.4/arch/x86/mm/pgtable.c: 


Pg9d tt *pgd alloc(struct mm struct *mnty 


{ 
i = {pgd tt *) get free page (PGALLOC GEFE) ; 
pr nid pogod); 

} 


static void pgd ctor(struct mm struct *mm, pgd t *pgd) 
if (PAGETABLE LEVELS == 2 || ;..) 1 
clone pgd range (pgd + KERNEL PGD BOUNDARY， 
swapper pg dir + KERNEL PGD BOUNDARY， 
KERNEL PGD PTITRS) ; 


图 数 pgd_alloc 申 请 了 一 个 物理 内 存 页 和 面 ， 然 后 调用 函数 pgd_ctor 将 
存储 在 swapper_pg_dir 处 的 页 目录 中 的 映射 内 核 空 间 的 页 目录 项 复制 过 
来 。 我 们 看 到 ， 这 里 没有 复制 映射 用 户 空 间 的 页 目录 项 ， 而 且 也 不 需要 
复制 ， 因 为 用 户 衬 间 需 要 映射 到 一 个 新 的 程序 。 于 是 ， 页 目录 中 映射 用 
空间 的 这 些 页 目录 项 的 目 然 为 衬 ， 更 不 用 提 那 些 还 没有 影 儿 的 页 表 
了 。 当 访问 地 址 落 在 这 些 空 的 页 目录 项 映射 范围 内 时 ， 目 然 就 引发 了 缺 
页 异常 。 那 么 在 缺 页 异常 处 理 函 数 中 ， 目 然 束 需要 分 配 页 面 、 分 配 页 
表 、 更 新 页 目录 、 更 新 页 表 项 等 。 


为 了 可 以 映射 更 大 的 地 址 空间 ，Linux 中 使 用 多 个 级 别 的 页 面 映 
出 。 因 此 ， 我 们 先 来 理解 一 下 内 核 中 页 表 的 党 理 。 比 如 缺 页 异 名 处理 函 
数 调 用 的 函数 handle mm _ fault， 代 人 码 如 下 : 


linux-3.7.4/mm/memory.c: 


int handle mm fault(...) 
| 

pgd t *pgd; 

pud 七 *pud:; 

pmd 七 *DPma ; 

pte: Ef Totes 


= pgd ofiset (mm, addressl},; 
pud = pud alloc (lmm, pgd, address).， 
if {1BUud) 


return VM FAULT OOM; 
pmd = pmd alloc (mm, pud, address), 


从 上 述 代 码 中 我 们 看 到 了 pgd、pud、pmd 和 pte。 读 者 应 该 可 以 猜 出 
来 ， 内 核 使 用 了 4 级 页 表 机 制 。 但 是 这 4 级 页 表 是 如 何 与 物理 上 的 页 表 结 
合 的 呢 ? 我 们 以 没有 开局 PAE 的 IA32 架 构 为 例 ， 来 探讨 这 一 过 程 。 


对 于 没有 局 用 PAE 的 IA32， 其 映射 的 地 址 空间 为 4GB， 上 所 以 理论 上 
内 核 使 用 与 TA32 物 理 上 相同 的 2 级 页 表 束 足够 了。 但 是 为 了 代码 的 一 致 
性 ， 内 核 依然 保留 了 pud 和 pmd 等 概念 。 只 不 过 通过 一 些 巧 妙 的 定义 ， 
纪 过 了 中 间 的 pud 和 pmd。 当 配置 内 核 时 ， 如 果 未 开局 文 持 IA32 的 PAE 
特性 ， 内 核实 质 上 将 使 用 2 级 页 表 。 内 核 使 用 了 文件 pgtable-nopud.h 和 
pgtable-nopmd.h 中 有 关 pud 和 pmd 的 一 些 定义 : 


linux-3.7.4/arch/,x86/include/asm/pgtable types .he: 
#1f PAGETABLE LEVELS > 3 
#else 
#include <asm-generic/,pgtable-nopud.h> 
ed 
#1f PAGETABLE LEVELS > 2 
#else 
#include <asm-generic/pgtable-nopmd.h> 
An 
从 文件 名 字 我 们 束 己 经 看 出 了 和 内核 的 意图 ， 残 是 机 


层 。 下 面 ， 我 们 束 结 合 这 两 个 文件 中 的 定义 ， 来 看 看 内 核 是 如 何 经 
pud 和 pmd 的 。 以 函数 handle_ mm_fault 中 使 用 的 函数 pud_alloc 为 例 : 


linux-3.7.4/include/linux/mm.h: 


static inline pud 七 *pud alloc (struct mm struct *mm, pgd tt *pgd, 
unsigned long address) 


人 


return (unlikely(pgd none(*pgd)) && pud alloc (mm, pgd, 
address))? NULL: pud offset (pgd, address); 


在 文件 pgtable-nopud.h 中 国 数 pgd_none 的 定义 为 : 


linux-3.7.4/include/asm-generic/pgtable-nopud.h: 


static inline int pgd none(pgd t pgd) { return 0; } 


也 束 古 说 ， 函 数 pgd_none 水 远 返 回 0， 那 么 pud_alloc 中 的 函数 


”pud_alloc 束 不 需要 执行 了 ， 而 且 pud_alloc 返 回 的 值 束 是 函数 pud_offset 
的 返回 值 ， 这 个 函数 当然 也 对 应 的 是 文件 pgtable-nopud.h 中 的 实现 : 


linux-3.7.4/include/asm-generic/pgtable-nopud.h: 


static inline pud 七 * pud offset (pgd t * pgd, unsigned long address ) 


{ 


return (pud t *)pgd; 


| 


看 到 函数 pud_offset 的 实现 ， 我 想 读者 一 定 会 居然 大 悟 。 显 然 ，pud 
就 是 pgd。pmd_alloc 亦 是 如 此 处 理 的 ， 读 者 可 以 仿照 上 面 的 方法 自行 查 
看 。 也 了 惑 是 说 在 使 用 了 2 级 页 表 的 情况 下 ，pud 和 pmd 就 像 透 明 的 空气 ， 
根本 不 存在 ， 内 核 绕 了 一 个 圈 后 又 回 到 原点 。 虽 然 代 码 中 还 有 所 谓 的 
pud、pmd 等 ， 但 是 所 谓 的 pud 和 pmd 都 是 pgd。 


读者 亦 不 要 被 诸如 pgd_t、pud_t、pmd_t 等 这 些 封 装 的 数据 类 型 所 迷 
惑 ， 说 白 了 ， 它 们 就 是 一 些 表 项 中 的 值 。 再 直 白 一 点 ， 就 是 一 个 整数 ， 
或 者 至 多 是 个 整数 的 数组 而 已 。 这 里 之 所 以 使 用 了 一 个 结构 体 将 这 些 整 
数 封装 起 来 ， 就 是 为 了 屏蔽 这 些 表 项 的 细节 ， 避 免 日 后 的 改动 影响 更 多 
的 代码 。 


了 解 了 内 核 的 页 表 管 理 机 制 后 ， 下 面 我 们 吏 来 具体 看 一 下 函数 


handle mm fault。 


linux-3.7.4/mm/memory.c: 


QI 1int handle: mm fault(struct mm struct mm Btruct va area struct 


02 *vma, unsigned long address, unsigned int flags) 
VO 

04 pgd tt *pgd; 

05 pud 志 DUO 

06 pmd 七 *pmd; 

07 pte tt tptes 

08 Rs 

09 pgd = pgd offset (mm, address); 

10 pud = pud alloc (mm, pgd, address),; 

Li LE WE) 

12 return VM FAULT OOM; 

13 pmd = pmd alloc (mm, pud, address); 

1 4 i 

15 If (unlikely (pmd none(*pmd)) && pte alloc(mm, vma, pmd, 
16 address)) 
Lh 

18 } 


疯 数 handle_ mm _ fault 衣 先 人 确定 引起 异常 的 地 址 是 由 哪个 页 目录 项 映 
射 的 ， 见 第 9 行 代 三。 


在 确定 了 页 目录 项 pgd 后 ， 如 前 面 讨 论 ， 我 们 可 以 无 视 第 10~13 行 关 
于 pud 和 pmd 的 部 分 。 后 面 的 pud 和 pmd 都 定 pgd。 


确定 了 页 目录 项 后 ， 第 15 行 代码 就 要 判断 页 目录 项 是 否 为 空 。 如 果 
页 目录 项 为 空 ， 显 然 还 要 分 配 页 表 。 前 面 我们 已 经 看 到 ， 对 于 一 个 新 加 
载 的 程序 ， 页 目录 表 中 映射 用 户 空间 的 页 目录 项 是 空 的 。 所 以 
pmd_none 的 值 一 定 是 True。 进 而 继续 执行 函数 pte_alloc 分 配 页 表 ， 代 
但 如 下 : 


linux-3.7.4/mm/memory.c: 


int pte allocl(struct mm struct *mm, struct vm area struct *vma, 
pmd t *pmd, unsigned long address) 


pgtable t new = pte alloc one (mm, address); 

if (likely(pmd none(*pmd))) { /* Has another populated it ? */ 
mm->nr ptes+t++; 
pmd populate (mm, pmd, new),， 
new = NULL; 

} else if (unlikely(pmd trans splitting(*pmd) ) ) 


函数 pte_alloc 首 先 调用 pte_alloc_one 分 配 了 一 个 物理 页 面 承载 页 
表 ， 然 后 调用 函数 pmd_populate， 将 这 个 页 表 的 地 址 填充 进 页 目录 表 中 
对 应 的 表 项 。 这 里 ， 对 于 使 用 2 级 页 表 的 情况 ，pmd 表 吏 是 页 目录 表 ， 
所 以 负数 pmd_populate 也 不 是 在 项 充 什 么 pmd 表 ， 而 是 填充 页 目 隶 表 。 


3. 从 文件 载 入 指令 和 数据 


页 表 准 备 就 绪 后 ，handle mm fault 最 后 准备 载 入 指令 和 数据 了 : 


linux-3.7.4/mm/memory.c: 


int handle mm fault(...) 


人 
pte = pte offset map (pmd, address),; 


return handle pte fault (mm, vma, address, pte, pmd, ilags); 


handle_mm _ fault 首先 调用 疯 数 pte_offset_map 取 得 引起 异常 的 地 址 
在 页 表 中 的 页 表 项 。 坚 无 疑问 ， 这 个 页 表 项 pte 也 是 空 的 。 然 后 


handle_ mm_fault 调 用 函数 handle_pte_fault 从 文件 载 入 指令 和 数 握 : 


linux-3.7.4/mm/memory.c: 


01 int handle pte fault (struct mm struct *mm, 


02 
03 
04 { 
05 
06 
07 
08 
09 
10 
部 | 
区 
13 
14 
15 


16 
17 
18 
19 
20 
2 
2 
"人 


struct vm area struct *vma, unsigned long address, 
pte t *pte, pmd t *pmd, unsigned int flags) 


pte t entry; 
Spinilock 七 *ptl; 


entry = *pte; 
if (!pte present (entry)) { 
if (pte none(entry)) { 
if (vma->vm ops) { 
if (likely(vma->vm ops->fault),) 
return do linear fault (mm, vma, address, 
pte, pmd, flags, entry); 


return do anonymous page(...):; 
| 
if (pte fijle(entry)) 

return do nonlinear fault(...):; 
return do swap page(...); 


handle_pte_fault 首 先 调用 pte_present 检 查 这 个 pte 是 否 存 在 ， 见 第 9 行 


代 但 。 


如 果 不 存在 ， 那 么 可 能 有 两 种 情况 第 一 种 情况 是 页 面 是 首次 访 
问 ， 也 就 是 这 个 页 表 项 是 彻底 的 空 的 ， 而 不 仅仅 是 没有 置 位 present， 在 
这 种 情况 下 ， 圾 要 建立 页 面 映射 ， 见 代码 第 10~17 行 ;第 二 种 情况 十 幢 
面 映 射 已 经 建立 了 ， 只 不 过 是 目前 交换 出 内 存 了 ， 即 代码 第 18~20 行 处 
理 的 情况 。 我 们 只 讨论 第 一 种 情况 。 


对 于 第 一 种 情况 ， 也 存在 两 种 情况 : 一 种 是 如 果 vm_area_struct 对 象 


中 的 成 员 vm_ops 存 在 ， 并 且 vm_ops 中 提供 了 函数 fault， 那 么 说 明 上 段 是 映 
味 到 文件 的 ， 见 代码 第 11~15 行 ， 盏 则 是 匿名 映射 。 这 里 我 们 只 讨论 典 
型 的 从 文件 加 载 的 情况 ， 代 人 码 如 下 : 


linux-3.7.4/mm/memory.c: 


Btatliec: Lint do. linear tault (tetruet mm strouct mm: struct 
vm area struct *vma, unsigned long address, 
pte ft *page table, pmd 七 *pmd, .。;.) 


pgoff t pgoff = (((address & PAGE MASK) 
- vma->vm start) >> PAGE SHIFT) + vma->vm pgotff; 


pte unmap (page table); 
return do fault (mm,; vma, address, pmd, pgoff, fags, 
orig pte); 


| 


do_jlinear_fault 这 个 函数 非 看 似 简 单 ， 仅 一 条 计算 指令 ， 计 算 了 变量 
pgoff 的 值 ， 然 后 残 将 后 续 处 理 丢 给 了 函数 do _fault。 但 是 小 计算 大 富 
意 ， 不 要 小 看 这 条 计算 指令 ， 它 计算 出 的 pgoft 是 从 文件 载 入 指令 和 数据 
的 关键 。 


我 们 知道 ， 每 次 从 文件 加 载 指 令 或 者 数据 时 ， 都 是 以 页 面 为 单位 
的 ， 所 以 我 们 可 以 将 文件 想象 为 多 个 连续 的 页 面 。 那 么 如 何 确定 引起 异 
第 的 这 个 地 址 对 应 于 文件 中 的 哪个 页 面 呢 ? 


事实 上 ， 当 从 文件 中 将 段 映 射 到 进程 地 址 空间 时 ， 创 建 的 段 的 
vm_area_struct 对 象 中 的 成 员 vm_pgoff 已 经 记录 了 上 段 在 文件 中 的 偏 移 ， 而 
且 是 以 页 为 单位 的 。 一 个 段 可 以 占据 一 个 或 者 多 个 页 面 。 


当 及 生 人 里 页 异 利 时 ， 虽 然 不 能 确定 引起 异 间 的 地 址 是 在 文件 中 的 哪 
一 个 页 面 ， 但 是 可 以 计算 出 这 个 地 址 相对 于 段 的 起 始 地 址 的 差 值 。 将 这 
个 兰 信 转换 为 以 页 为 单位 ， 再 加 上 段 在 文件 中 的 俩 移 ， 即 可 确定 这 个 地 
址 在 文件 中 的 哪个 页 面 上 。 


我 们 用 图 5-30 来 更 直观 地 表示 一 下 这 个 过 程 。 图 5-30 表 示 数 据 段 及 
其 相应 的 vm_area_struct 对 象 ， 其 中 使 用 虚线 框 起 来 的 页 是 数据 段 所 映射 
的 范围 。 
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图 5-30 异常 地 址 到 页 面 的 计算 


我 们 以 下 面 程序 中 变量 g_a 为 例 ， 具 体 体验 一 下 这 个 偏 移 的 计算 过 


int g a& = 100; 
VODO1Q mainl) 
| 
| 
为 了 更 具有 代表 性 ， 我 们 使 用 静态 链接 ， 这 样 编译 出 的 可 执行 文件 
尺寸 大 一 点 ， 页 面 侦 移 可 以 多 一 点 。 


root@baisheng:~/demo# gcc -static -o hello maln.c 


(1) 有 段 在 文件 的 偏 移 (vm_pgoff) 


因为 变量 g_a 在 数据 上段， 所 以 我 们 看 看 数据 段 在 可 执行 文件 中 的 贪 


root@baisheng:~/demo# readelf -1 hello 


Program Headers: 


Type Offset VirtAddr physAddr FileSiz MemSiz Flg 
LOAD Ox000000 0x08048000 0x08048000 0xa5l7d Oxa5l7d RE 
LOAD 0xXx0a5fa4 Ox080eefa4 Ox080eefa4 Ox0O0cdc 0x023c8 RW 


我 们 看 到 数据 段 在 文件 中 的 偏 移 是 0x0a5fa4， 按 照 页 面 对 齐 后 ， 数 
据 段 应 该 从 文件 中 偏 移 D0x0a5000 处 开始 映射 。 而 


0x0a5000/0x1000=165， 也 就 是 说 ， 数 据 段 映射 的 文件 的 起 始 位置 是 第 
165 个 页 。 


(2) 引起 异常 的 地 址 在 段 内 的 偏 移 


一 个 段 可 能 会 映射 到 文件 中 的 多 个 页 ， 所 以 我 们 还 要 计算 具体 的 地 
址 在 段 内 的 俩 移 〈 以 页 为 单位 ) 。 
root@baisheng:~/demo# readelf -s hello | grep g a 
2184: O080ef068 4 OBJECT GLOBAL DEFAUDLT 24 9 a 
变量 g_a 的 地 址 为 0x080ef068。 因 为 映射 是 以 页 为 单位 的 ， 所 以 这 
个 地 址 应 该 包含 在 从 0x080ef000 到 0x080f0000 一 个 页 面 中 。 因 此 ， 使 用 


地 址 0x080ef000 与 段 的 起 始 地 址 0x080ee000 做 差 ， 从 而 得 出 这 个 地 址 所 
在 页 在 段 内 的 偏 移 : 


0x080ef000 - Ox080ee000 = 0X1L000 


即 偏 移 一 个 页 。 也 就 是 说 ， 在 段 在 文件 中 的 偏 移 的 基础 上 ， 再 偏 移 
一 个 页 就 可 以 了 ， 即 载 入 文件 第 166 〈165+1) 页 的 数据 到 内 存 。 


根据 上 面 的 讨论 可 见 ，do_jlinear fault 这 个 函数 的 主要 目的 正如 同 其 
名 字 一 样 ， 是 处 理 这 个 线性 的 号 页 异常 地 址 ， 将 其 从 线性 地 址 转换 为 相 
应 的 页 单元 。 偶 移 这 个 参数 准备 好 了 ， 我 们 继续 入 下 看 _ do _fault。 


linux-3.7.4/mm/memory.c: 


statie nt do fault letruct mm ptriuet mmm, ptruet: vu area ptruet 
*vma; Unsigned long address, pmd t *pmd; pgoff 七 pgoff, ~». 5) 


Struct. vm tauit. wm: 


vmf .virtual address = (void user *) (address & PAGE _ MASK) ; 
VMEf ,DooctE = pgotff: 


ge = Vma->Vm ops->fault (vma, &vmf); 

i = Vmf .page,; 

pug alt = pte offset map lock (mm, pmd, address, &pt]1); 
entry = mk pte (page, vma->vm page prot),; 


set pte at(mm, address, page table entry); 


图 数 do _fault 调 用 具体 文件 系统 中 的 fault 函 数 ， 将 所 需 的 文件 数据 
读 入 到 内 存 。 人 至 于 读 入 哪个 页 面 ， 当 然 要 使 用 刚刚 计算 的 pgoff 了 。 以 
ext4 文 件 系 统 为 例 ， 其 为 vma 提 供 的 vm_operations_struct 如 下 : 


linux-3.7.4/fs/ext4 /file.c: 


static const struct vm operations struct ext4 file vm ops = |{ 
正二 和 二 = filemap fault, 


.page mkwrite = ext4 page mkwrite, 


.remap pages = generic file remap pages, 


ext4 文 件 系统 中 的 filemap_fault 将 指定 侦 移 处 的 页 面谈 入 内 存 ， 其 中 
参数 vmf 中 的 page 驳 是 指 癌 从 文件 载 入 的 页 面 。 


载 入 页 面 后 ， 还 有 最 后 一 步 要 做 : 更 新 页 表 项 。 函 数 _do_fault 锁 
定 页 表 中 映射 这 个 页 面 的 页 表 项 ， 然 后 调用 函数 mk_pte 创 建 页 表 项 的 


值 ， 最 后 调用 set_pte_at 将 页 表 项 的 人 项 充 到 页 表 中 对 应 的 页 才 项 。 


5.4.4 ”加载 动 态 链 接 僚 


在 现代 操作 系统 中 ， 绝 大 部 分 程序 部 是 动态 链接 的 。 对 于 动态 链接 
的 程序 ， 除 了 加 载 可 执行 程序 外 ， 其 依赖 的 动态 库 也 要 加 载 。 对 于 动态 
链接 的 程序 和 库 ， 编 详 时 并 不 能 确定 引用 的 外 部 符 写 的 地 址 ， 因 此 在 加 
载 后 ， 进行 从 号 重 定位 。 


为 了 降低 内 核 的 复杂 上 度 ， 上 述 工 作 并 没有 包含 在 内 核 中 ， 而 是 转移 
到 了 用 户 空间 ， 由 用 户 空 间 的 程序 来 完成 这 个 过 程 。 这 个 程序 被 称 为 动 
态 加 载 /链接 器 (dynamic linker/loader) ， 一 般 也 将 其 简称 为 动态 链接 
器 。 后 续 行 文中 ， 几 是 没有 使 用 “动态 ”二 字 修 饰 的 链接 器 ， 均 指 编 译 时 
的 链接 器 。 内 核 只 负责 将 动态 链接 器 加 载 到 内 存 ， 其 他 的 都 交 由 动态 链 
接 器 去 处 理 。 


为 了 更 大 的 灵活 性 ， 内 核 不 会 假定 系统 中 使 用 动态 链接 上 项， 而 是 由 
可 执行 程序 主动 告诉 内 核 谁 是 动态 链接 器 。 当 编译 一 个 可 执行 程序 时 ， 
链接 器 将 创建 一 个 类 型 为 "INTERP'" 的 段 ， 这 个 段 非 常 简单 ， 就 是 包含 


一 个 字符 串 ， 这 个 字符 串 就 是 动态 链接 如 的 名 字 ， 以 可 执行 程序 hello 为 


roota@baisheng:~/dqemo# readelf -1 hello 


Program Headers: 


Type Offset VirtAddr PhysAddr FileSiz MemSiz 
PHDR Ox000034 Ox08048034 Ox08048034 Ox00120 Ox00120 
INTERP Ox000154 0x08048154 Ox08048154 0X00013 Ox00013 


[Requesting program interpreter: /lib/ld-linux.so.2] 


由 上 上 可见， 类 型 为 "TINTERP" 的 段 束 是 一 个 19(0x13) 个 字符 长 的 


字 串 wlib/ld-linux.so.2"， 正 是 动态 链接 需 。 


当 内 核 加 载 可 执行 程序 时 ， 其 将 检查 可 执行 程序 的 Program Header 
Table 中 是 否 包 含有 类 型 为 "TINTERP" 的 段 ， 代 码 如 下 : 


linux-3.7.4/fs/binfmt elf.c: 


statiec nt load elf pinary (struct :Linux binprm *bhprm: sea) 


{ 


struct file *interpreter = NULL; /* to shut gcc up */ 
char * elf interpreter = NULL.; 


for {i = 0; i < loc->elf ex.e phnum; i++) { 
if (elf ppnt->p type == PT INTERP) | 


elf interpreter = kmalloc (elf ppnt->p filesz, 
GFP KERNEL ) ; 


retval = kernel read (bprm->file, elf ppnt->p offset, 
elf interpreter, elf ppnt->p filesz),; 


interpreter = open exec (elf interpreter),; 


} 


elf ppnt++; 


如 果 有 INTERP 的 段 ， 那 么 说 明 这 个 ELE 文 件 是 一 个 动态 链接 的 可 
执行 程序 。Linux 中 动态 链接 器 以 动态 库 的 方式 实现 ， 于 是 内 核 需 要 将 
动态 链接 器 这 个 动态 库 加 载 到 进程 的 地 址 空间 ， 代 码 如 下 : 


linux-3.74/fs/binfmt elf.e' 


statie Tnt loag elf. bainary lstruckt Linv brnprm Tbrm Kell 


{ 
if (elf interpreter) { 
elf entry = load elf interp(&loc->interp elf ex, 
interpreter, &interp map addr, load bias),， 
if (!IS ERR((void *)elf entry)) 1 
interp load addr = elf entry:; 
elf entry += loc->interp elf ex.e entry; 


} 


start thread(regs, elf entry, bprm->p); 


加 载 动态 链接 器 与 加 载 可 执行 程序 的 过 程 基本 完全 相同 ， 函 数 
load_elf_interp 就 是 一 个 简化 版 的 load_elf_binary， 这 里 我 们 不 再 资 述 
完成 动态 链接 器 加 载 后 ， 需 要 跳 转 到 动态 链接 器 的 入 口 继续 执行 。 忆 
么 ， 如 何 确 定 动态 链接 器 的 入 口 地 址 呢 ? 动态 链接 器 的 ELF 头 中 将 记录 
= 入 Dh 


root@baisheng:/vita/sysroot/lib# readelf -h ld-2.15.so | 
gqrep -1 entry 
Entry point address: Ox1050 


难道 编译 时 链接 器 计算 错 了 ? 0x1050 不 太 像 进程 地 址 空间 的 虚拟 地 


址 。 没 错 ，0x1050 是 虚拟 地 址 ， 只 不 过 是 因为 在 编译 时 不 能 确定 动态 库 
的 加 载 地 址 ， 所 以 动态 库 中 地 址 分 配 从 0 开始 ， 见 下 面 动态 库 的 Program 
Header Table: 


root@baisheng:/vita/sysroot/lib# readelf -1 ld-2.15.so 


Program Headers : 


Type Offset VirtAddr PhysAddr FileSiz MemS1iz 
LOAD 0x000000 0x00000000 0x00000000 Oxlf47c Oxlf47c 
LOAD OxX0l1Lfcc0 0X00020c€6D 0x00020cc0 0x00Db8 0X00c78 


函数 load_elf_interp 返 回 的 是 动态 链接 器 在 进程 地 址 空间 中 的 映射 的 
基 址 ， 所 以 在 这 个 基 址 加 上 入 口 地 址 0x1050 后 才 是 动态 链接 器 的 入 口 的 
真正 的 运行 时 地 址 。 计 算 好 动态 链接 问 的 入 口 地 址 后 ， 内 核 调用 函数 
start_thread， 伪 造 了 用 户 现 场 。 在 进程 切换 到 用 户 空 间 时 ， 将 跳 转 到 动 
态 链 接 器 的 入 口 处 开始 执行 


我 们 看 看 动态 链接 规 入 口 地 址 对 应 的 符号 


root@baisheng:/vita/sysroot/lib# readelf -s ld-2.15.so | grep 1050 
443: 00001050 0 NOTYPE LOCAL DEFAULT 1Q Start 


可 见 ， 动 态 链接 器 的 入 口 是 符 写 _start: 


glibc-2.15/sysdeps/i386/dl-machine.h: 


Start :\n\ 
# Note that dl start gets the parameter in %eax.\n\ 
moOV1] %Sesp, Seax\n\ 
Gall dl startNn\ 
.1 Btarty Users \nN\ 
# Save the user entry point address in $%edi.\n\ 
movVv] Seax, Sedi\n\ 


jmp *%edi\n\ 


图 数 _start 调 用 _dl_start 在 进行 一 些 上 自身 的 必要 的 准备 工作 。 其 中 最 
重要 的 一 点 是 动态 链接 融 也 是 一 个 动态 库 ， 其 在 进程 地 址 空间 中 的 地 址 
也 是 加 载 时 才 确 定 的 ， 因 此 动态 链接 需 也 需要 重 定 位 ， 我 们 将 在 5.4.8 下 


讨论 这 一 过 程 ， 


然后 ，_dl_start 调 用 函数 dl_main 加 载 动态 库 以 及 重 定 位 工作 。 其 
中 ， 加 载 动 态 库 的 过 程 在 5.4.5 节 讨论 ， 重 定位 动态 库 的 过 程 在 5.4.6 节 讨 
论 ， 有 天 里 定位 可 执行 程序 的 部 分 将 在 5.4.7 节 讨论 。 


在 完成 加 载 及 重 定 位 后 ， 函 数 _dql_start 将 返回 可 执行 程序 的 入 口 地 
址 。 因 此 ， 汇 编 指令 从 寄存 大 eax 中 取出 可 执行 程序 的 入 口 地 址 ， 并 临 
时 保存 到 和 寄存 大 edi。 在 这 段 程序 的 最 后 ， 通 过 指令 "jmp*9%edi" 跳 技 到 可 
执行 程序 的 入 口 处 开始 执行 可 执行 程序 。 


另外 ， 我 们 再 留 晶 一 下 上 面 代码 中 的 标号 _dl_start_user。 从 这 个 标 
写 处 开始 ， 到 最 后 跳 转 到 可 执行 程序 的 入 口 前 ， 动 态 链 接 楷 将 调用 动态 


库 相 关 的 一 些 初 始 化 函数 。 前 面 在 第 2 章 中 最 后 在 动态 库 的 初始 化 部 分 
溧 加 的 那个 函数 ， 瓯 是 在 这 里 执行 的 。 


我 们 以 一 个 具体 的 例子 看 看 动态 链接 袁 在 进程 地 址 空间 中 映射 的 情 
1 几 : 
root@baisheng:~# cat /proc/self/maps 


08048000-08053000 r-xp 00000000 08:01 261656 Abin/cat 


b7736000-b7756000 r-xp 00000000 08:01 523936 
/lib/i386-linux-gnu/l1d-2.15.so 

b7756000-b7757000 r--p 0001f000 08:01 523936 
/lib/i386-linux-gnu/ld-2.15.so 

b7757000-b7758000 rw-p 00020000 08:01 523936 
/lib/i386-linux-gnu/ld-2.15.so 


可 见 ， 对 于 这 个 进程 ， 动 态 链接 器 被 映射 到 进程 地 址 空间 从 
0xb7736000 开 始 的 地 方 ， 这 个 就 是 我 们 前 面 提 到 的 动态 库 在 进程 地 址 空 
间 中 映射 的 基 址 。 其 中 0xb7736000~0xb7756000 这 个 段 的 权限 是 "rx"， 显 

这 个 段 应 该 是 代码 段 和 一 些 只 读 的 数据 ;0xb7756000~0xb7757000 和 和 
0xb7757000~0xb7758000 都 对 应 的 是 数据 段 。 但 是 为 什么 数据 段 补 划分 
为 两 个 段 ? 其 实 不 只 是 动态 链接 嚣 如此， 包括 其 他 动态 库 和 动态 链接 的 
可 执行 程序 部 是 如 此 ， 其 体 原因 我 们 将 在 5.4.9 市 讨论 。 


5.4.5 ”加载 动态 库 


加 载 动态 库 有 前 ， 自 完 需 要 知 亿 这 个 可 执行 程序 依赖 的 动态 库 ， 当 然 
也 包括 这 些 动态 库 依赖 的 动态 库 ， 因 此 ， 这 是 一 个 好 归 的 过 程 。 那 么 动 
态 链接 避 是 如 何 知 道 这 些 依赖 的 动态 库 呢 ?动态 链接 帮 不 古 一 个 人 在 战 
斗 ， 在 编 详 时 ， 链 接 各 已 经 为 动态 链接 做 了 很 多 铺垫 ， 其 中 之 一 束 古 在 
ELF 文 件 中 创建 了 一 个 段 ".dynamic"， 保 存 的 全 部 是 与 动态 链接 相关 的 


主 司 


加 /已 vo 


我 们 观 罕 一 下 可 执行 程序 hello 中 的 段 ".dynamic": 


root@baisheng:~/demo# readelf -d hello 


Dynamic section at offset OxfOc contains 25 entries: 


Tag Type Name/Value 

Ox00000001 (NEEDED) Shared lJibrarys [Libf1,ao 

0x00000001 (NEEDED ) Shared library: [libc.so.6] 
0X00000003 (PLTGOT) 0X804a000 

0x00000002 (PLTRELSZ) 40 (bytes) 

Ox00000014 (PLTREL) REL 

0x00000017 (JMPREL) 0X8048430 

Ox00000011 (RED 0X8048420 


段 ".dynamic" 中 记录 了 多 组 与 动态 库 有 关 的 信息 ， 每 一 组 信息 都 使 
用 如 下 格式 保存 : 


glibc-2.1]5/elf/elf. 


typedef struct 


人 


Elf32 Sword d tag; 
union 
{ 
ELIi32 Wort dd als 
El1E32 GE @ ptrs 
} d un; 
} ELE32 Dyn; 


/* Dynamic entry type */ 


/* Integer Value */ 
/* Address value */ 


可 见 ， 每 组 信息 使 用 的 是 tag/value 的 形式 保存 ， 只 不 过 value 有 的 是 


个 整数 值 ， 有 的 是 地 址 而 已。 


其 中 类 型 (Type) 为 "NEEDED" 的 项 记录 的 束 古 可 执行 程序 依赖 的 
动态 库 。 可 以 看 到 ，hello 依 赖 动态 库 libc.so.6 和 libf1.so。 


动态 链接 规 设 计 了 一 个 数据 结构 来 代表 每 个 加 载 到 内 存 的 动态 库 


(包括 可 执行 程序 ) ， 定 义 如 下 : 


glibc-2.15/include/link.h: 
struct link map 
ElfW(Addr) 1 addr; 
char *] name; 
ElfW(Dyn) *]1 lg:; 
struct link map *1] nexts; *}1 prev; 


ElfWw(Dyn) *1 info[DT NUM + DT THISPROCNUM + DT VERSIONTAGNUM 
+ DT EXTRANUM + DT VALNUM + DT ADDRNUM] ; 


这 个 数据 结构 中 记录 了 动态 库 重 定位 需要 的 关键 两 项 信息 : 1_addr 
和 1_1d。1L_addr 记 录 的 是 动态 库 在 进程 地 址 空间 中 映射 的 基 址 ， 有 了 这 个 
参照 ， 动 态 链接 器 才 可 以 修订 符号 的 运行 时 地 址 ;1L_ld 指 向 动态 库 的 
段 ".dynamic"， 通 过 这 个 参数 ， 动 态 链接 器 可 以 知道 一 切 与 动态 重 定位 
相关 的 信息 。 为 了 方便 ， 结 构 体 link_map 中 定义 了 一 个 数组 L_ info， 将 
段 "..dynamic" 中 的 信息 记录 在 这 个 数组 中 ， 就 不 必 每 次 使 用 时 再 去 重新 
解析 ".dynamic" 了 。 


当 内 核 将 控制 权 转 交 给 动态 链接 融 时 ， 链 接 妖 自 先 为 即将 处 理 的 可 
执行 程序 创建 一 个 link_map 对 象 ， 在 动态 链接 大 代码 中 将 其 命名 为 
main_map。 然 后 ， 动 态 链 接 上 可 找到 这 个 可 执行 程序 依赖 的 动态 库 ， 妆 
然 也 包括 其 依赖 的 动态 库 也 依赖 的 动态 库 ， 依 次 链接 在 main_map 的 后 
面 ， 形 成 一 个 link_map 对 和 象 链表 。 动 态 链接 帮 作 为 动态 库 依赖 的 一 个 动 
态 库 ， 目 然 也 包含 在 这 个 链表 中 。 沿 看 这 个 链表 ， 动 态 链 接 名 将 动态 库 


映射 进 进 程 地 址 空间 ， 并 进行 重 昨 位 。 
疯 数 dl]_main 调 用 _dl_map_object_deps 加 载 可 执行 程序 依赖 的 所 有 动 
态 库 ， 代 但 如 下 : 


四 


Statle YI dl ma (const ElEW(PhAr, 


{ 


010 


dl map object deps (main map, ...); 


glibc-2.15/elf/dl-deps.c: 


Vold internal function 
dl map object deps 


{ 


(BLUGE, TEN TNE ViaBy ws 


for (runp = known; runp; ) 


( 


int err = dl catch error (&objname, &errstring, 


&malloced, openaux, &args); 


static void openaux (void *a) 


{ 


args->aux = dl map object 


} 


(args->map, args->name, ...); 


疯 数 dl_main 给 疯 数 _d]_map_object_deps 传 谴 了 一 个 参数 
前 面 提 人 到 过 这 个 参数 ， 就 是 可 执行 程序 的 link_map 对 象 。 也 


main_map, 


数 _dl_map_object_deps 通 


态 库 调用 疯 数 _dl_map_object 将 这 


间 ， 代 码 如 下 : 


居 历 可 执行 程序 依赖 的 所 有 动态 库 ， 对 每 一 个 动 
文 些 动态 库 全 部 映射 到 进程 的 地 址 衬 


glibc-2.15/elf/dl-load.c: 


BEroote Lnk. Wa * TOCeErnalL Com Ww ap BOISBSEG bag 


{ 


return dl map object from fd (name, fd, &fb, realname, 
loader, type, mode, &stack end, nsid); 


因为 动态 库 可 能 已 经 侯 加 载 到 内 存 了 ， 所 以 _dl_map_object 衣 和 完 从 
已 经 映 映 的 动态 库 中 寻找 。 如 果 没 有 找到 ， 则 调用 函数 
_dl_map_object_from_ fd 从 文件 系统 加 载 ， 代 人 码 如 下 : 


glibc-2.15/elf/dl-load.c: 


stuct Tink map * Ql map GDIect from fa hay 


人 


1l->l1] map start = (ELLINW(Addrz)) mmap ((vold *) mappref, 


maplength, c->prot, MAP COPY|MAP FILE, fd, c->mapoff).; 


lesl addr = ll map Start = ce5mpstart; 


_dl_ map_object_from_ fd 调用 函数 “mmap 映 射 文件 中 的 段 到 进程 地 
址 空间 ， 并 将 映射 基 址 记录 到 link_map 中 的 ]_addr。 人 至 于 函数 _mmap， 
读者 应 该 已 经 隐隐 猜 出 来 了 ， 没 错 ， 这 个 函数 就 是 我 们 编写 应 用 程序 时 
使 用 的 C 库 的 函数 mmap， 只 不 过 这 是 在 C 库 内 部 调用 ， 所 以 函数 名 称 略 
有 弄 别 ， 其 实现 如 下 : 


glibc-2.15/sysdeps/unix/sysv/linux/i386/mmap.s: 
ENTRY ( mmap) 
movl] S$SYS ify(mmap2), %eax /* System call number in %eax.*/ 


/* Do the system call trap. */ 
ENTER KERNEL 


_mmap 首 先 将 系统 调用 号 _NR_mmap2 装 入 寄存 器 eax， 然 后 就 向 
内 核 请 求 服务 。 这 里 请 求 内 核 服务 时 之 所 以 没有 使 用 0x80 中 断 ， 原 因 是 
为 了 在 支持 快速 系统 调用 (Fast System Call ) 指令 sysenter/sysexit 的 CPU 
上 使 用 这 些 比 0x80 中 断 更 优化 的 系统 调用 指令 。 


在 映射 了 程序 段 后 ， 函 数 _dl_map_object_from_fd 调 用 了 函数 
mprotect 设 置 段 的 试 、 写 以 及 可 执行 权限 ，_mprotect 使 用 的 是 内 核 调 


用 号 为 _NR_mprotect 的 服务 。 


我 们 看 到 ， 动 态 链 接 卉 并 没有 及 明 什 么 新 的 魔法 ， 它 只 是 使 用 内 核 
提供 的 系统 调用 将 动态 库 映射 到 进程 的 地 址 空间 。 也 就 是 襄 ， 昌 然 动 态 
库 是 由 动态 链接 如 在 用 户 空 间 进程 映射 的 ， 但 是 本 质 上 的 映 映 动作 还 十 
由 内 核 完成 的 。 


最 后 ，_dl_map_object_from fd 将 link_map 中 的 成 员 l_ld 指 问 了 
段 ".dynamic" 所 在 的 位 置 : 


SLibe-2 .L157/elEdlL-1080.6: 


BEEruct. Link map % dl. mp object From fd Const Char ian vad 


人 


for (ph = phdr; ph < &phaz [1->]1 Phnumj ; ++ph) 
switch (ph->p type) 


| 


Case: PI DNAMIC: 
1->1L ld = (void *) ph->p vaddr; 


起 


1->1 ld = (ELEW(Dyn) *) ((ElfW(Addr)) 1->1 ld + 1->1 addr); 


国 数 dlL_map_object_from_ fd 从 Program Header Table 中 取出 类 型 
为 "DYNAMIC" 的 段 的 地 址 ， 然 后 再 加 上 动态 库 的 映射 基 址 。 


最 后 ， 我 们 结合 图 5-31 来 直观 地 看 一 下 多 个 进程 是 如 何 共 享 一 个 动 
态 库 的 。 


| | 
mmap base Stack (read and write) Stack mmap base 
下 = 
| | 
Data Segment 委 
ly) ”- 晓 -… 

WE Data Segment (read only) 提 --- Data Segment MGO 
Code Segment Code Segment 
FE | 
| | 
| = | Physical memory | 
Process address space A Process address space B 


图 5-31 动态 库 的 映射 


最 初 ， 当 共 圣 库 上 映射 进 内 存 后 ， 人 代码 段 和 数据 段 在 物理 内 存 中 分 别 
如 只 有 有 一 份 副本 ， 并 且 部 是 只 读 的 ， 进 程 A 和 进程 B 共 至 只 侠 的 代 公 上段 
和 数据 段 。 在 进程 运行 过 程 中 ， 当 任 一 个 进程 试图 修改 数据 段 时 ， 则 内 
核 将 为 这 个 进程 复制 一 份 私有 的 数据 段 的 副本 ， 而 且 这 个 数据 段 的 权限 
侯 设 壮 为 可 读 写 的 。 这 里 使 用 的 束 略 束 古 所 请 的 号 时 复制 (COW,Copy 
On Write) 。 但 是 这 个 复制 动作 不 会 影响 进程 的 地 址 空间 ， 对 进程 是 透 
明 的 ， 只 是 同一 段 地 址 通过 页 面 表 映射 到 不 同 的 物理 页 面 而 已 。 


5.4.6。 重 定位 动态 库 
动态 库 在 编译 时 ， 链 接 器 并 不 知道 最 后 被 加 载 的 位 置 ， 所 以 在 编译 


时 ， 共 圣 库 的 地 址 是 相对 于 0 分 配 的 。 以 动态 库 ]libf1.so 为 例 : 


root@baisheng:~/demo# readelf -1 libfl.so 


Program Headers: 


Type Offset VirtAddr PhysAddr FileSiz MemSiz Flg 
LOAD Ox000000 0x00000000 0x00000000 0x00658 0x00658 RE 
LOAD 0x000eec 0x00001eec 0x00001eec 0x00138 0x0013C RW 


根据 动态 库 libf1.so 的 Program Header Table， 注 意 列 VirtAddr， 显然 
地 址 是 从 0 开始 分 配 的 。 因 此 ， 在 映射 到 具体 进程 的 地 址 空间 后 ， 需 
修订 其 中 那些 通过 绝对 方式 引用 的 符号 的 地 址 ， 代 码 如 下 : 


)j 


可 开 二 人 = 了 二 57 有 二 在 大臣 二 人 


StatLin: OO 而 二 MILn (a a 
( 
/* Now we have all the objects loaded. Relocate them all ...*/ 
unsigned 1 = main map->] searchlist.r nlist,; 
while (i-- > 0) 
人 


Struct: link map *1 = main map->}] i1nitfinil1i];> 


i {1 Tas: SOL(AdL. EELd SR 
1 velocates volect, tls lral Noopsys srw 


疯 数 d_main 从 main_map 开 始 ， 调 用 函数 _dl_relocate_object 重 定位 


link_map 链 表 中 的 所 有 动态 库 和 可 执行 程序 ， 有 顺序 是 从 后 同 前 。 如 末 有 
符号 重 定义 了 ， 那 么 后 面 发 现 的 符号 的 地 址 将 履 盖 掉 前 面 的 符号 地 址 。 
换 句 话说 ， 链 接 时 排 在 前 面 的 动态 库 中 的 符号 将 被 优先 使 用 。 另 外 ， 还 
有 一 点 要 注意 ， 这 个 列表 中 的 动态 链接 器 将 不 再 需要 重 定位 ， 因 为 其 已 
经 在 前 面 自己 重 定 位 好 了 。 


第 用 的 重 定 位 方式 有 两 种 : 加 载 时 重 定 位 〈Load-time relocation ) 
和 了 PIC 方式 。 


加 载 时 重 定 位 与 编译 时 的 重 定 位 非 党 相似。 动态 链接 夫 在 加 载 动 态 
库 后 ， 通 历 动 态 库 的 重 定 位 表 ， 对 于 重 定位 表 中 的 每 一 项 记录 ， 解 析 这 
个 记录 中 指明 的 符 亏 的 地 址 ， 然 后 使 用 解析 到 的 地 址 修订 这 个 记录 中 指 
定 的 俩 移 处 ， 当 然 这 个 偶 移 需要 加 上 动态 库 映 射 的 茶 址 。 


但 是 动态 库 是 多 个 进程 共 孚 的 ， 不 同 的 进程 映射 的 动态 库 的 地 址 不 
同 ， 因 此 ， 如 来 攻 个 进程 按照 动态 库 在 目 己 进程 空间 中 映 映 的 基 址 修改 
动态 库 的 代码 段 ， 那 么 这 个 动态 库 的 显然 束 不 能 被 其 他 进程 所 共 圣 
了 ， 除 非 所 有 的 进程 映射 动态 库 的 位 置 相 同 ， 但 是 这 又 市 来 太 多 的 限制 
和 问题 。 


基于 以 上 原因 ， 开 友 痢 们 义 设 计 了 为 外 一 种 万 式 一 一 PIC (Position- 
Independent Code) 。PIC 基 于 两 个 关键 的 事实 : 


仿 数据 段 是 可 与 的 。 既 然 代 但 段 是 不 能 更 改 鸭 ， 但 症 数 据 段 总 征 


可 以 更 改 的 。 于 是 PIC 把 重 定 位 战场 从 代码 段 转移 到 数据 段 ， 在 数据 段 
中 增加 了 一 个 GOT (GLOBAL OFFSET TABLE) 表 。 在 编译 时 ， 链 接 
做 将 所 有 需要 重 定 位 的 符 扎 在 这 个 表 中 分 配 一 项 ， 其 中 记录 了 符号 以 及 
其 实际 所 在 的 地 址 。 重 定位 时 ， 动 态 链 接 器 只 修改 GOT 表 中 的 值 。 


争 代码 和 数据 的 相对 位 置 不 变 。 在 代码 中 凡是 引用 GOT 表 中 的 符 
写 ， 只 需要 找到 GOT 表 的 地 址 ， 再 加 上 变量 在 GOT 表 中 的 偏 移 即 可 。 但 
是 ， 如 此 还 是 没有 避 开 代码 段 被 修改 的 命运 ， 因 为 动态 库 在 进程 地 址 至 
间 中 的 位 置 上 只 有 在 加 载 时 才能 确定 ， 所 以 ，GOT 表 的 地 址 在 加 载 时 也 需 
要 重 定 位 。 但 是 ， 我 们 也 注意 到 这 样 一 个 事实 : 对 动态 库 来 说， 虽然 其 
了 映射 的 地 址 在 编译 时 不 确定 ， 但 是 在 映射 到 进程 的 地 址 空间 时 ， 代 码 段 
和 数据 段 依然 按照 编译 时 分 配 好 的 地 址 映射 ， 也 就 是 说 ， 指 令 和 数据 的 
相对 位 置 却 是 固定 的 。 因 此 ，GOT 表 作为 数据 段 中 的 一 员 ， 代 码 段 中 的 
任 一 指令 与 GOT 表 基 址 之 间 的 侦 移 是 固定 的 ， 在 编译 时 就 可 以 确定 。 
PIC 恰恰 是 基于 这 个 事实 ， 在 代码 中 凡是 访问 GOT 表 的 地 方 ， 都 是 使 用 
这 个 固定 的 相对 偶 移 来 引用 GOT 表 以 及 其 中 的 变量 ， 因 此 ， 代 但 中 引用 
GOT 表 的 地 址 不 再 需要 重 定位 ， 从 而 避 开 了 代码 段 被 修改 的 问题 。 接 下 
来 我 们 结合 具体 的 实例 进一步 解释 这 个 过 程 。 


1.GOT 表 


显然 ，PIC 技 术 中 ，GOT 表 是 一 个 非常 重要 有 的 数据 结构 ， 在 继续 深 
入 探讨 前 ， 我 们 先 来 认识 一 下 这 个 数据 结构 ， 如 图 5-32 所 示 。 


func 2 address 
.got.plt func 1 address 





图 5-32 GOT 表 


由 图 5-32 可 见 ， 这 么 大 名 易 易 的 GOT 表 却 如 此 简单 ， 其 就 是 一 个 一 
维 数 组 。 对 于 32 位 CPU 来 说 ， 每 个 数组 元 素 束 是 32 位 的 地 址 。GOT 表 分 
成 两 个 部 分 : .got 和 .got.plt。.got 中 存储 的 是 变量 的 地 址 。.got.plt 中 存储 
的 是 函数 的 地 址 。 在 5.4.9 市 中 我 们 将 讨论 GOT 表 一 分 为 二 的 原因 。 


在 编译 时 ， 链 接 器 将 定义 一 个 符号 _GLOBAL _OFFSET_TABLE ， 
指向 .got 和 .got.plt 的 连接 处 ， 凡 是 访问 GOT 表 中 的 地 址 时 ， 都 使 用 基于 


这 个 从 号 的 偏 移 。 比 如 ， 访 问 变 量 var 1， 那 么 使 用 : 


GLOBAL OFFSET TABLE - 4 


访问 函数 func1 则 使 用 : 


GLOBAL OFFSET TABLE + 1l12. 


GOT 表 中 除了 记录 变量 和 函数 的 地 址 外 ， 还 有 另外 三 个 特殊 的 表 
项 ， 我 们 在 图 5-32 中 也 已 经 标 出 ， 它 们 就 是 .got.plt 的 前 三 项 。 其 中 第 1 项 
记录 的 是 动态 库 或 者 可 执行 文件 的 .dynamic 段 的 地 址 ;第 2 项 记录 的 是 代 
表 动态 库 或 者 可 执行 文件 的 link_map 对 象 ， 第 3 项 记录 的 是 动态 链接 器 
提供 的 解析 符号 地 址 的 函数 _d]_runtime_resolve 的 地 址 。 我 们 以 动态 库 
libf1.so 为 例 ， 看 看 在 一 个 已 经 编译 好 的 动态 库 中 ， 这 三 项 的 值 : 


root@baisheng:~/demo# readelf -x .got.plt libfl.so 


Hex dump of section '.got.plt': 
DxzQRBonQ200D £81e0000 00000000 O00000000 36040000 a8 his Eis ki: 由 
0x00002010 46040000 56040000 RR ws 


从 地 址 0x2000 处 起 ， 束 是 .got.plt 开 始 的 地 方 。 其 中 使 用 黑体 标识 的 
3 个 32 位 地 址 就 分 别 是 这 三 项 的 值 。 可 见 ， 除 了 第 1 项 被 赋予 了 具体 的 值 
外 ， 其 余 两 项 全 部 是 0。 原 因 是 段 .dynamic 的 地 址 是 编译 时 就 确定 的 。 我 
们 查看 动态 库 libf1.so 的 段 .dynamic 的 值 : 


xzoote@baisheng:~/dqemo# readelf -S 1Lipbf1l1.so 


Section Headers: 
[Nr] Name Type Addr Off Size 


[18] .dynamic DYNAMIC 0000lef8 000ef8 0000e8 


上 和 耐 ， 使 用 "-x" 显 示 段 .got.plt 的 内 容 时 ， 是 以 little-endian 表 示 的 ， 
所 以 .dynamic 段 的 地 址 "00001ef8" 被 显示 为 "f81e0000"。 


记录 动态 库 信 息 的 link_map 古 在 加 载 后 创建 的 ， 编 译 时 当然 不 知道 

个 运行 时 创建 的 对 象 的 地 址 。 同 理 ， 因 为 动态 链接 器 也 是 以 动态 库 的 
形式 加 载 到 进程 地 址 空间 的 ， 其 映射 地 址 也 是 加 载 时 才 确 定 的 ， 所 以 动 
态 链接 器 中 的 函数 _dql_runtime_resolve 的 地 址 也 是 在 动态 链接 器 加 载 后 
才能 确定 。 因 此 ， 与 段 .dynamic 的 地 址 在 编译 时 就 可 确定 不 同 ， 这 两 项 
是 由 动态 链接 器 动态 填 宛 的 ， 代 码 如 下 : 


glibc-2.15/sysdeps/i386/dl-machine.h: 


1 static inline int attribute ((unused, always inline)) 
2 elf machine runtime setup (struct link map *]1], .,..) 
-EL 
和 4 Elf32 Addr *qgot; 
> 和 
6 got = (ELE32 AGE “} D PTR (1 1 dnE6 [DT PLTGOTI)S 
V 
8 got [1] = (Elf32 Addr) 1; /*Identify this shared object.*/ 
2 
10 got [2」】 = (ELt32 Addr) & dl runtime resolve; 
和 
| 


其 中 第 6 行 语句 将 相关 宏 进行 蔡 换 后 ， 展 开 如 下 : 


got = (El1f32 Addr *) 1]=>1] infolDT PLTGOT| .dd un.d ptr; 


有 前面， 讨论 结构 体 link_map 时 ， 我 们 提 到 过 ， 这 个 结构 体 中 的 数组 
]_info 束 是 为 了 方便 存储 段 .dynamic 的 信息 的 。 因 此 ， 这 条 语句 的 目的 残 
征 从 段 .dynamic 中 取得 GOT 表 的 基地 址 ， 也 残 是 got.plt 的 基 址 。 


接 下 来 的 第 8 行 和 第 10 行 语句 的 目的 是 在 获得 了 .got.plt 的 基 址 之 
后 ， 分 别 设置 其 中 第 2 项 和 第 3 项 的 值 。 很 明显 ， 一 个 是 代表 动态 库 的 


link_map 对 象 ， 男 外 一 个 就 是 函数 _dl_runtime_resolve 的 地 址 。 


读者 这 里 了 解 GOT 表 中 这 特殊 的 三 项 就 可 以 了 ， 更 具体 的 我 们 后 面 
会 讨论 。 其 中 第 1 项 主要 是 动态 链接 喜 重 定位 目 己 时 使 用 ， 我 们 将 在 
5.4.8 帮 讨论 ;第 2 项 和 第 3 项 主要 征用 在 函数 的 延 到 绑 定 中 使 用 ， 我 们 在 


5.4.6 世 中 讨论 。 
2. 重 定位 变量 


变量 的 重 定 位 在 动态 库 加 载 时 进行 ， 注 意 不 要 将 这 里 的 加 载 时 与 前 
面 特 指 的 “加 载 时 重 定位 ”混淆 ， 这 里 指 的 是 使 用 PIC 技 术 在 加 载 时 进行 
的 变量 重 定位 的 过 程 。 我 们 分 别 从 代码 中 引用 变量 以 及 动态 链接 器 修订 
GOT 表 两 个 角度 来 讨论 PIC 中 的 变量 重 定位 。 


(1) 代码 中 引用 变量 


我 们 以 库 libf1l 中 的 函数 fool_func 引 用 库 libf2 中 的 符号 fo02 为 例 ， 具 


体 看 一 下 PIC 中 的 变量 重 定 位 。 我 们 反 汇 编 动 态 库 libf.so， 其 中 引用 全 
局 变量 foo2 的 反 汇 编 代 码 片 段 如 下 : 


root@baisheng:~/demo# objdump -Q libfl1.so 


0000057D < x86.get pc¢ thunk.bx>: 


57b: 8 注 忆 :过 马 mOV (Sesp) ,Sebx 
D7e: 全 认 ， ret 
BIE 90 nop 


QOSSC Kionl fic: 


D80': SS push Sebp 
S581 89 e5 mOV Sesp, sebp 
B83 53 push Sebx 
584: 和 3 BB :14 sub SOxl14,%esp 
B87 忆 9: 志 二 让 于 下 下 六 让 call 57bD 
< X86 get. pe. thunk. bx 
S58c: B81 wo TA La WE WO add $0xla74, Sebx 
592: QD: 3 人 全 注 主 泪 主 下 主 mOV -0x18 (Sebx) ,Seax 
598 : 8b 00 mOV (Seax) ,Seax 


1) 获取 下 一 条 指令 的 运行 时 地 址 。 注 意 偏 移 0x587 处 的 指令 ， 其 调 
用 了 偏 移 0x57b 处 的 函数 ”x86.get_pc_thunk.cx。 在 调用 这 个 函数 时 ， 
call 指 令 会 将 下 一 条 指令 的 地 址 0x58c 压 入 到 栈 中 。 而 在 进入 函数 
”Xx86.get_pc_thunk.cx 后 ， 其 将 栈 顶 的 值 取 出 到 寄存 器 ebx 中 ， 然 后 返 
回 。 显 然 ， 调 用 这 个 函数 的 目的 残 是 取得 下 一 条 指令 的 运行 时 地 址 。 这 
里 之 所 以 这 么 做 ， 是 因为 x86 指 令 集中 没有 提供 获取 指令 指针 值 的 指 
令 ， 不 得 以 才 采 用 的 一 个 小 技巧 。 

2) 计算 GOT 表 的 运行 时 地 址 。 现 在 ， 下 一 条 指令 的 绝对 地 址 保存 


在 寄存 器 ebx 中 ， 而 下 一 条 指令 与 GOT 之 间 的 偏 移 又 是 固定 的 ， 因 此 寄 
存 器 ebx 加 上 这 个 固定 的 偏 移 后 ， 就 确定 了 GOT 表 在 运行 时 所 在 的 地 


址 。 


编译 时 ， 链 接 器 定义 了 一 个 变量 GLOBAL _ OFFSET _ TABLE 代表 
GOT 表 的 基 址 ， 库 libf1 中 该 符号 地 址 如 下 : 


root@baisheng:~/demo# readelf -s libfl.so 


Symbol table '.symtab' contains 58 entries: 
Num: Value Size Type Bind Vis Ndx Name 


42: 00002000 0 OBJECT LOCAL DEFAULT 20 GLOBAL OFFSET TABLE 


风 此 ， 库 ]ibf1 中 偏 移 0x58c 人 处 的 指令 到 GOT 表 所 在 位 置 的 差 为 : 
0x2000-0x58c=0x1a74， 这 就 是 地 址 0x58c 处 的 值 0x1a74 的 由 来 。 也 就 是 


说 ， 这 个 0x1a74 束 是 指令 与 GOT 表 之 间 的 那个 固定 偏 移 。 


3) 计算 从 写 foo2 在 GOT 表 中 的 偏 移 。 取 得 了 GOT 表 的 绝对 地 址 
后 ， 如 要 访问 变量 foo02， 还 要 加 上 变量 foo2 在 GOT 表 中 的 偏 移 。 那 这 个 
仿 移 是 多 少 呢 ?我 们 看 看 动态 库 libf1 风 音 定位 表 : 


root@baisheng:~/demo# readelf -r libfl.so 


Relocation section '.rel.dyn' at offset 0x38cCc contains 11 entries: 
Offset Info Type Sym.Value Sym. Name 
0000lfe8 00000206 R 386 GLOB DAT 00000000 EC 


根据 重 定 位 表 可 见 ， 符 号 foo2 在 偏 移 0x00001fe8 人 处。 而 GOT 表 其 址 
在 0x2000 处 ， 因 此 ， 根 据 这 两 个 值 之 差 就 可 以 确定 符号 foo2 在 GOT 表 中 
的 偏 移 : 0x1lfe8-0x2000=-0x18， 也 束 是 说 ， 变 量 foo2 相 对 GOT 表 的 偏 移 


是 -0x18。 根 据 ELF 文 件 中 段 的 布局 : 


root@baisheng:~/demo# readelf -S libfl.so 


Section Headers: 


[Nr] Name Type Addr Orf Size 
EE9L SSE PROGBITS 0000lfe0 000fe0 000020 


BQ -nelt PROGBITS 00002000 001000 000018 


可 见 ，GOT 表 的 基 址 是 介 于 .got 和 .got.plt 之 间 的 。 对 于 .got 部 分 来 
说 ，GOT 表 的 基 址 位 于 .got 部 分 的 底部 ， 这 束 古 仿 移 为 负 的 原因 。 之 所 
以 将 GOT 表 的 基 址 设置 在 .got 和 .got.plt 之 间 ， 并 无 特别 的 目的 ， 这 样 访 
问 .got.plt 束 是 正 值 了 。 所 以 ， 我 们 看 到 在 库 libf1 的 地 址 0x592 处 在 ebx 的 
基础 上 义 加 了 仿 移 -0x18。 


(2) 动态 链接 可 修订 GOT 表 


我 们 还 是 以 库 libf1 中 引用 的 库 libf2 中 的 符号 foo2 为 例 ， 来 看 看 在 加 
载 时 ， 动 态 链 接 右 是 如 何 解析 这 个 符号 并 修订 GOT 表 的 。 


1) 获取 动态 库 libf1 的 重 定位 表 。 重 定位 信息 保存 在 重 定 位 表 中 ， 
因此 ， 动 态 链 接 右 首先 要 找到 重 定 位 表 。 段 .dynamic 中 类 型 为 REL 的 条 
目 记 录 的 束 是 重 定 位 表 的 位 置 ， 动 态 库 libf1 段 .dynamic 中 记录 的 重 定 位 
表 如 下 : 


root@baisheng:~/demo# readelf -d libfl.so 


Dynamlc section at offset Oxefc contains 25 entrilies: 
Tag Type Name/Value 


Ox00000011 (REL) OXxX38c 


可 见 ， 保 存 重 定位 变量 的 表 位 于 0x38c 处 。 因 此 ， 动 态 链接 器 按照 
如 下 公式 计算 重 定 位 表 的 地 址 : 


Jink map->] addr + OXx38c 


2) 根据 重 定 位 表 ， 确 定 需 要 修订 的 位 置 。 确 定 重 定位 表 后 ， 动 态 
链接 需 就 过 历 重 定位 表 中 的 每 一 条 记录 。 以 libf1.so 中 的 引用 的 全 局 变量 
dummy、foo2 和 fool 的 重 定位 记录 为 例 : 


root@baisheng:~/demo# readelf -r libfl.so 


Relocation section '.rel.dyn' at offset Ox38c contains 11 entries: 
Offset Info Type Sym.Value Sym. Name 

00001fe0 00000806 R 386 GLOB DAT 00002020 dummy 

00001fe8 00000206 R 386 GLOB DAT 00000000 foo2 

00001ff8 00000c06 R 386 GLOB DAT 0000201c fad 


其 中 第 一 条 草 定 位 记录 表示 需要 使 用 和 从 所 dummy 的 值 修订 下 面 位 置 
处 的 值 : 


link map->J]L addr + Dxliied 


二 条 重 定 位 记录 表示 需要 使 用 符号 foo2 的 值 修订 下 面 位 置 处 的 
值 : 


Jink map->l1 addr + Oxlteé 


三 条 和 章 定 位 记录 表示 需要 使 用 符 写 foo1 的 值 修订 下 和 面 位 置 处 的 
但: 


link map->] addr + 0x1lff8 


3) 寻找 动态 符号 表 。 需 要 修订 的 位 置 确定 后 ， 那 么 接 下 来 现 需 要 
解析 符号 的 值 。 动 态 链接 器 从 link_map 这 个 链表 的 表 头 ， 即 代表 可 执行 
程序 的 main_map 开 始 ， 依 次 在 它们 的 动态 符 亏 表 中 得 找 符 吉 。 所 以 ， 
要 解析 从 写 的 地 址 ， 自 先 要 确定 动态 侍 写 表 的 地 址 。 以 动态 库 libf2 为 
例 ， 动 态 链 接 右 确定 其 动态 付 写 表 的 过 程 如 下 。 


动态 链接 喜 根 据 代 表 库 lib 包 的 link_map 中 的 字段 ] 1d 找 到 
段 .dynamic， 然 后 在 该 段 中 取出 动态 符 写 表 的 地 址 : 


root@baisheng:~/demo# readelf -d libf2.so 


Dynamic section at offset OxfOc contains 24 entries: 
Tag Type Name/Value 


0x00000006 (SYMTAB,) 0X178 


段 .dynamic 中 类 型 为 SYMTAB 的 项 记录 的 是 动态 从 号 表 的 地 址 。 可 
见 ，libf2 的 动态 符号 表 的 地 址 是 0x178， 因 此 ， 其 在 运行 时 的 绝对 地 址 
使 用 如 下 公式 计算 : 


link map->] addr + 0X1L78 


4) 解析 从 号 地 址 。 动 态 链接 此 找到 了 动态 从 写 表 后 ， 进 一 步 在 动 
态 休 写 表 中 俘 找 从 写 的 地 址 。 以 全 局 变量 fo02 为 例 ， 动 态 链接 胡 将 在 库 


libf2 的 动态 从 写 表 中 找到 这 个 符 写 的 信息 : 


root@baisheng:~/demo# readelf -s libf2.8s0o 


Svymbol table '.dynsym' contains 13 entries: 
Num: Value Size Type Bind V1is Ndx Name 


9: O0002018 4 QBJECT GLOBAL DEFAULT 21 foo2 


上 述 动 态 符 写 表 中 符号 的 地 址 是 相对 于 0 的 ， 因 此 需要 加 上 libf2 在 
进程 地 址 空间 中 映射 的 基 址 ， 所 以 符号 foo2 的 运行 时 地 址 是 : 


link map 1ibt2->] addr + OxX2018 


然后 ， 动 态 链 接 器 使 用 上 述 这 个 地 址 ， 修 订 前 面 确 定 的 需要 修订 的 
位 置 。 


表面 是 静态 的 分 机 ， 下 面 我 们 将 这 个 例子 运行 起 来 ， 动 态 地 观 穴 一 
下 全 局 变量 foo2 的 重 定 位 过 程 。 


root@baisheng:~/demo# gdb ./hello 
(gdb) b main 
Breakpoint 1 at Ox80485cf 
(gdb) rr 
Starting program: /root/demo/hello 


Preakpoint 1, Ox080485cf in main () 


我 们 在 另外 一 个 终端 中 查看 动态 库 libf2 在 进程 hello 的 地 址 空间 中 映 
射 的 基 址 : 


root@baisheng:~/demo# ps -C hello -o pid= 

2897 

root@baisheng:~/demo# cat /proc/2897/maps 

08048000-08049000 r-xp 00000000 08:01 1054223 /root/demo/hello 
b7el5000-b7e16000 r-xp 00000000 08:01 1054350 /root/demo/libf2.so 


b7fd8000-b7fd9000 r-xp 00000000 08:01 1047105 /root/demo/libfl1.so 


可 见 ， 库 libf1 和 libf2 在 hello 进 程 的 地 址 空间 中 映射 的 基 址 分 别 是 
0xb7fd8000 和 0xb7e15000。 那 么 libf1 中 需要 修订 的 地 址 是 : 


Oxb7fd8000 + Oxlfe8 = OxbT7fd9fe8 


侍 号 foo2 的 地 址 是 : 
OXxXbDTEeEl1SO000 + Ox2018 = Oxb7Tel1l7018 


下 面 我 们 使 用 gdb 查 看 内 存 0xb7fd9fe8 处 的 值 ， 如 果 计 算 正 确 ， 那 么 
该 内 存 处 的 值 应 该 已 经 被 动态 链接 兹 修订 为 0xb7e17018: 


(gdb) x 0xb7fd9fe8 
Oxb7fd9fe8: 0xb7e17018 


根据 输出 结果 可 见 ， 内 存 0xb7fd9fe8 处 输出 的 值 与 我 们 理论 上 计算 
的 符号 foo2 的 地 址 完全 吻合 。 


综 上 可 知 ， 变 量 foo2 的 重 定 位 过 程 如 图 5-33 所 示 。 


Oxb7fd8000 
+0xlfe8 


libf1l | 


Oxb7fd8000 
+Ox38c 


Oxb7el5000 0O0x2018 


libf2 ”| 


Oxb7elS000 
十 DOX178 


个 知 过 读者 注意 

库 libf1 中 分 列 定义 了 全 局 变量 dummy。 
过 没有 ， 对 于 变量 fo02， 
一 无 所 知 ， 所 以 在 加 载 时 进 


之 。 不 知 读者 想 过 
时 动态 库 libf1 对 其 


Kernel Space 







| .got 
] .dynamic 
| .rel.dyn 


link_map libf]-=>| addr 
(Oxb7fd8000) 





.dynsym 


link map libf2->| addr 


一 本 


Process Address Space for hello 


5-33 ”变量 foo2 的 重 定位 过 程 


没有， 在 例子 中 ， 我 们 在 可 执行 文件 hello 和 动 
这 不 是 我 们 的 笔 误 ， 而 是 故意 ; 
其 定义 在 动态 库 libf2 中 ， 编 译 
行 重 定位 ， 我 们 没有 任何 


A 


人 DD 


疑义 。 但 是 ， 对 于 变量 dummy， 其 在 动态 库 libf1 中 已 经 定义 了 ， 既 然 指 
令 和 数据 的 相对 位 置 是 固定 的 ， 那 么 为 什么 不 采用 与 寻 址 GOT 表 一 样 的 
方法 ， 编 译 时 束 直 接 定 义 好 位 置 ， 而 还 是 通过 GOT 表 ， 在 加 载 时 进行 章 


定位 呢 ? 


我 们 先 反 过 来 问 读者 一 个 问题 ， 动态 库 libf1 中 气 数 fool_func 中 引用 
的 变量 dummy 是 动态 库 ]ibf1 中 定义 的 ， 还 是 可 执行 程序 hello 中 定义 的 ? 
答案 是 后 者 。 对 于 一 个 全 局 符号 ， 包 括 函 数 ， 其 可 能 在 本 地 定义 ， 但 在 
其 他 库 中 、 甚 至 包括 使 用 动态 库 的 可 执行 程序 中 也 可 能 有 定义 。 在 动态 
链接 器 解析 符号 时 ， 将 沿 着 以 可 执行 程序 的 link_map 对 象 main_map 开 头 
的 这 个 链表 依次 碍 找 动 态 符号 表 ， 使 用 最 先 找 到 的 符号 值 。 如 我 们 的 例 
子 中 ， 可 执行 程序 hello 的 动态 符号 表 将 先 于 动态 库 libf1 的 动态 符号 表 被 
查找 ， 所 以 ， 库 libf1 中 的 函数 foo1_func 将 使 用 可 执行 程序 hello 中 dummy 
的 定义 。 


除 此 之 外 ， 还 有 一 种 所 谓 的 Copy Relocation， 也 要 求 即 使 引用 同一 
个 动态 库 中 定义 的 全 局 变量 ， 也 要 使 用 重 定 位 的 方式 ， 我 们 在 5.4.7 攻 讨 
论 这 种 重 定 位 情况 。 

3. 重 定位 函数 

剖面 我 们 讨论 了 变量 的 重 定 位 ， 本 小 市 我 们 讨论 函数 的 重 定 位 。 理 
论 上 ， 函 数 的 重 定 位 使 用 与 变量 相同 的 方法 即 可 。 但 是 ， 因 为 相对 比较 


少 的 全 局 变量 的 引用 ， 函 数 引用 的 数量 可 能 要 大 得 多 ， 因 此 函数 重 定位 
的 时 间 不 得 不 考虑 。 


事实 上 ， 读 者 回想 一 下 我 们 日 前 开 肥 的 程序 ， 其 实 很 多 代码 不 一 定 

部 执行 ， 比 如 有 些 分 支 、 错 误 处 理 等 。 而 且 ， 即 使 可 执行 程序 本 身 
使 用 的 函数 数量 并 不 大 ， 但 是 可 执行 程序 依赖 的 动态 库 可 能 还 会 引用 其 
他 动态 库 中 的 函数 ， 这 些 动态 库 再 依赖 其 他 的 动态 库 ， 如 此 ， 和 需要 重 定 
位 的 函数 的 数量 不 容 小 讲 。 更 重要 的 是 ， 可 执行 程序 可 能 根本 束 用 不 到 
这 些 动态 库 中 的 函数 ， 因 此 ， 加 载 时 重 定位 函数 只 会 延长 程序 启动 的 时 
间 ， 但 是 和 章 定 位 的 蔷 些 函 数 却 可 能 根本 束 用 不 到 。 出 于 以 上 考虑 ，PIC 
对 于 函数 的 重 定 位 引入 了 延迟 绑 定 技术 〈lazy binding) 。 


也 就 是 说 ， 在 加 载 时 ， 动 态 链 接 器 不 解析 任何 一 个 需要 重 定位 的 函 
数 的 地 址 ， 而 是 在 运行 时 真正 调用 时 ， 再 去 重 定位 。 为 此 ， 开 发 者 们 引 
入 了 PLT (Procedure Linkage Table) 机 制 。 在 GOT 表 的 巧妙 配合 下 ， 
PIC 将 函数 地 址 的 解析 推 过 到 了 运行 时 。 


在 编 详 时 ， 链 接 豆 在 代码 段 中 插入 了 一 个 PLT 人 代码 户 段 ， 每 个 外 部 
函数 在 PLT 中 都 占据 着 一 小 段 代码 。 我 们 可 以 将 这 些 厂 段 看 作 外 部 孙 数 
在 本 地 代码 中 的 代理 。 代 人 码 段 中 所 有 引用 外 部 函数 的 地 方 ， 全 部 指 问 其 
相应 的 本 地 代理 。 其 他 具体 的 事情 惑 区 由 本 地 代理 去 处 理 。 


PELT 的 代码 片段 的 逻辑 如 图 5-34 所 示 。 


call funcl@plt 和 二 funcl 
call func2@pilt © func2 


> funcl‘®@plt. 2 
01 If (Lfirst call | 
| 半 性 ! Pe 
3 rs DxGEAe | addr of func1l 
05 Push 0x4(9kebx 
05 push Ox4(%ebxy addr of func2 


是 -一 ebx 


07 If (! first call) se 
08 -jmp *0xl10(%ebx 

09 else 

0a push $0x8 .4 | 
0b push Ox4(%ebx)---- 
Oc Jmp *0x8(%ebx) 


offset 8 


of func2 





plt code segment 


.rel.plit 


图 5-34 PLT 代 码 厅 段 


由 图 5-34 可 见 : 


1) 代码 中 所 有 引用 函数 如 func1、func2 的 地 方 全 部 替换 为 指向 PLT 
中 的 代 人 码 厂 段 。 因 为 这 里 使 用 的 是 相对 寻 址 ， 所 以 运行 时 代 人 码 段 无 须 表 
进行 任何 修订 ， 也 束 是 说 ， 代 人 码 段 不 需要 和音 定位 了 。 你 证 了 代码 段 的 可 
读 属 性 ， 从 而 在 多 个 进程 间 可 以 共 圣 。 


2) PLT 中 每 个 函数 的 代码 片段 除了 两 处 数据 外 ， 基 本 完全 相同 。 
以 调用 函数 func1 为 例 ， 它 的 基本 逻辑 是 : 如 果 不 是 第 一 次 调用 func1， 


束 说 明 函 数 func1l 的 地 址 已 经 被 解析 ， 并 且 GOT 表 中 对 应 的 func1 的 地 址 
的 项 也 已 经 被 正确 修订 了 ， 那 么 直接 跳 转 到 GOT 表 中 对 应 的 项 即 可 ， 也 
就 是 说 ， 这 样 就 直接 跳 转 到 了 函数 foo2 的 开头 。 这 里 ， 因 为 GOT 表 的 前 
3 项 有 特殊 的 用 途 ， 所 以 func1 的 地 址 占据 GOT 表 的 第 4 项 。ELF 标 准 规 

定 ， 在 调用 PLT 中 的 代码 片段 前 ， 主 调 函 数 需 要 将 GOT 表 的 基 址 装载 进 
寡人 存 嚣 ebx， 所 以 ，PLT 中 凡是 访问 got 的 地 方 ， 都 使 用 ebx， 

*0xc (%ebx) 就 是 GOT 表 中 第 4 项 的 值 ， 即 函数 funcl 的 地 址 。 读 者 可 以 
回顾 一 下 前 面 讨 论 的 重 定位 变量 一 节 ， 那 里 讨论 确定 GOT 的 基地 址 时 ， 

正 是 将 GOT 表 的 地 址 装 入 了 寄存 器 ebx。 


3) 如 采 是 第 一 次 调用 ， 那 么 将 调用 动态 链接 器 提供 的 函数 
_dl_runtime_resolve 解 析 函 数 foo1 的 地 址 。 这 里 显然 不 能 将 函数 
_dl_runtime_resolve 的 地 址 直接 写 在 PLT 代 码 中 ， 如 果 这 样 的 话 ， 那 么 
PLT 也 需要 重 定位 这 个 函数 ， 除 非 使 用 前 面 提 到 的 加 载 时 重 定 位 ， 但 前 
面 已 经 提 到 了 其 种 种 次 端 。 因 此 ， 动 态 链 接 器 在 加 载 库 时 ， 将 函数 
_d]_runtime_resolve 的 地 址 填 却 到 动态 库 的 GOT 表 的 第 3 项 ， 而 在 PLT 表 
中 ， 则 直接 跳 转 到 GOT 表 中 第 3 项 保存 的 地 址 ， 即 *0x8 (%ebx) 。 


4) 在 跳 转 到 函数 _dl_runtime_resolve 的 地 址 前 ， 有 两 条 push 指 令 ， 
它们 就 是 为 函数 _dl_runtime_resolve 准 备 参 数 的 。 在 具体 看 这 两 条 下 指 
令 前 ， 我 们 先 来 看 一 下 修订 GOT 表 中 的 函数 地 址 时 需要 的 信息 : 


令 第 一 个 震 要 的 信息 是 当前 重 定位 的 函数 在 重 定 位 表 中 的 亿 移 。 


根据 这 个 偏 移 ，_dl_runtime_resolve 找 到 相应 的 重 定位 条 目 ， 从 而 确定 
需要 解析 的 符号 的 名 字 ， 以 及 需要 修订 的 位 置 。 对 于 函数 在 重 定 位 表 中 
的 偏 移 ， 这 个 在 编译 时 就 可 以 确定 ， 所 以 我 们 看 到 PLT 中 直接 使 用 了 确 
定 的 数字 。 如 函数 funcl 在 章 定位 表 中 占据 第 1 个 条 目 ， 那 么 偏 移 就 是 
0x0， 这 束 是 汇编 指令 "push$0x0" 的 作用 。 而 对 于 函数 fo02， 因 为 其 在 迁 
定位 表 中 占据 第 2 个 条 目 ， 所 以 俩 移 残 是 0x8。 


令 第 一 个 是 需要 个 代表 当前 动态 库 的 link_map 对 象 。 要 获得 重 定 位 
表 ， 当 然 需要 知道 动态 库 映 射 的 基 址 以 及 段 .dynamic 所 在 的 地 址 ， 而 这 
些 信息 记录 在 库 的 link_map 对 象 中 。 在 查找 符号 时 ， 其 需要 遍历 可 执行 
程序 的 link_map 链 表 ， 因 此， 函数 _dl_runtime_resolve 要 根据 动态 库 的 
link_map 对 象 找 到 link map 链表。 而 link_map 也 是 在 动态 链接 器 加 载 库 
时 填充 到 GOT 表 中 的 ， 它 占据 GOT 表 的 第 2 项 ， 这 就 是 PLT 代 人 码 中 汇编 
语句 "push 0x4 (9%ebx) "的 作用 。 


5) 准备 好 参数 后 ，_dl_runtime_resolve 将 开始 寻找 从 与 ， 最 后 修订 
GOT 表 中 的 地 址 。 相 关 代 码 如 下 : 


glibc-2.15/sysdeps/i386/dl-trampoline.s: 
G1 runtime resolve: 


movl] 16(%esp), %edx # Copy args pushed by PLT in register. Note 
movl1] 12(%esp), %eax # that fixup' takes its parameters in regs. 
ca WL Rup # Call resolver. 


moOV]1] %Seax, (%esp) # Store the function address. 


= # Jump to function address. 
cfi endproc 
.Size dl runtime resolve, .- dl runtime resolve 


_dl runtime_resolve 中 核心 的 是 调用 函数 _dl_fixup 进 行 符 亏 解 析 ， 并 
修订 GOT 表 。 这 里 使 用 的 是 寄存 占 传 参 ， 所 以 _dl_runtime_resolve 在 调 
用 _dl_fixup 前 ， 将 动态 库 的 link_map 存 储 在 寄存 器 eax 中 ， 作 为 传 给 
_dl_fixup 的 第 1 个 参数 ， 将 重 定位 函数 在 重 定位 表 中 的 偏 移 存 储 在 寄存 
器 edx， 作 为 传 给 dl_fixup 的 第 2 个 参数 。 


然后 ， 在 _dl_fixup 执 行 完毕 后 ， 会 将 解析 的 函数 的 地 址 返回 。 这 个 
返回 值 会 放 在 寄存 故 eax 中 ， 所 以 我 们 看 到 _d]_runtime_resolve 在 
_dl_fixup 执 行 完毕 后 ， 会 将 保存 在 寄存 耸 eax 中 的 信 放 到 栈 顶 ， 然 后 调 
用 ret 指 令 ， 将 这 个 返回 地 址 弹出 到 指令 指针 之 中 ， 从 而 跳 转 到 解析 后 的 
地 址 运行 。 


下 和 面 我 们 再 简要 看 一 下 解析 疯 数 地 址 的 函数 _dl]_fixup: 


glibc-2.15/elf/dl-runtime.c: 


01 #1ifndef reloc offset 
02 # define reloc offset reloc arg 
03 # define reloc index reloc arg / sizeof (PLTREL) 


04 #endif 

05 

06 attribute ((noinline)) ARCH FIXUP ATTRIBUTE 

07 dl fixup ( struct link map * unbounded 1, ElfW (Word) reloc arg) 
08 { 

09 const ElfW(Sym) *const symtab 

10 = (GONnst: VOLld *}) D. EIR (1 1 InfolDT SYMTAB]); 

WE const char *strtab = (const void *) D PTR (1, 

12 1 info[DT STRTAB] ) ; 

13 

14 const PLTREL *const reloc = (const void *) (D PTR (1, 

15 1] info[lDT JMPREL]) + reloc _ offtset) ; 

16 const ElfW(Sym) *sym = &symtab [ELFW(R SYM) (reloc->r info)].; 
I Vold *const rel addr = {void *) (1l->1 addr + reloc->r offset); 
18 lookup 七 result; 

19 DL FIXUP VALUE TYPE value; 

20 

2 二 result = dl lookup symbol x (strtab + sym->st name, 1, 
22 &sym,1=3l1 scope, version, ELF RTYPE CLASS PLT, ...); 
23 

24 Value = DL FIXUP MAKE VALUE (result, ...); 

25 和 

26 return elf machine fixup plt (1l, result, reloc, rel addr., 

27 Value) ; 

28 | 

2 

30 glibc-2.15/sysdeps/i386/dl-machine.h: 

3 

32 static inline Elf32 Addr 

33 elf machine fixup pilt (struct link map *map, lookup 七 七 ， 

34 const Elf32 Rel *reloc; Elf32 Addr *reloc addr; 

3 Elf32 Addr value) 

36 { 

37 return *reloc addr = value; 

38 |} 


先 看 函数 _dl_fixup 的 两 个 参数 ， 第 一 个 参数 ] 就 是 传递 进来 的 动态 库 
的 link_map; 第 2 个 参数 reloc_arg 束 是 重 定 位 表 的 偏 移 ， 根 据 第 2 行 代码 
的 宏 定 义 可 见 ， 函 数 体 中 使 用 的 变量 reloc_offset 束 是 reloc_arg。 


代码 第 9~12 行 根据 传递 来 的 link_map， 首 先 取得 动态 库 的 动态 符号 


表 ， 和 包括 SYMTAB 和 STRTAB。 


代码 第 14~15 行 根据 传 进 来 的 水 数 在 重 定位 表 中 的 偏 移 ， 从 重 定 位 
表 中 获取 对 应 的 重 定 位 记录 reloc。 


第 16 行 代 但 根据 重 定 位 记录 reloc 中 符号 在 动态 符号 表 中 的 索引 ， 从 


动态 符号 表 symtab 中 取出 符号 的 名 字 。 


第 17 行 代 但 根据 重 定 位 记录 reloc 中 的 记录 的 俩 移 ， 加 上 库 映 射 的 基 
址 ， 计 算出 需要 修订 的 位 置 。 当 然 这 个 位 置 对 应 的 是 GOT 表 中 的 未 一 
项 。 


代码 第 21~22 行 调用 _dl_lookup_symbol_ x 人 遍历 link_map 链 表 ， 查 找 
从 号 的 地 址 。 


代码 第 26~27 行 调用 elf_machine_fixup_plt 修 订 GOT 表 中 对 应 的 项 ， 
函数 elf_machine_fixup_plt 中 整 一 条 代码 ， 如 代码 第 37 行 ， 束 古 给 GOT 表 
的 菏 一 项 赋 个 从 写 地 址 而 已 。 

理论 上 ， 了 函数 的 重 定 位 过 程 可 以 束 此 完成 了 。 但 是 ， 上 述 方法 还 有 
些 瑕 糙 : 


仿 在 PLT 人 代码 户 段 中 ， 需 要 设计 标志 来 表示 图 数 是 合 是 第 一 次 调 


仿 在 PLT 代 人 码 片 段 中 ， 编 译 器 的 实现 者 们 不 想 做 那个 多 余 的 放 济 


灯 ， 即 函数 旦 个 是 第 一 次 调用 的 判断 。 尽 宫 这 可 能 只 是 一 次 跳 较 和 一 次 
访 存 ， 但 是 编译 融 的 实现 者 们 还 是 想 把 它们 和 省 下 来 。 


于 是 ， 编 详 耸 的 设计 者 们 在 上 述 基础 上 ， 伏 出 了 更 进一步 的 改进 ， 


如 图 5-35 所 示 。 


funcl‘@plt: 


04 


06 
07 
08 


jimp +OXC(96ebx 


.dynamic 


push $0x0 可 
push Ox4(%ebx) »| dl runtime resolvel) 
Imp *0x8(%ebx) / | : { 
} 


funcz2@plt: 
人 


Ob 


Od 
Oe 
Of 





imp *0x10(%ebx) 


push $0x8 2 
push Ox4(%ebx) 
Imp *0x8(%ebx) 


plt code segment 


图 5-35 ” PLT 代码 片段 


我 们 看 到 ，PLT 中 的 代码 片段 不 再 进行 任何 判断 ， 而 是 耳 接 跳 转 到 


GOT 表 中 用 来 保存 解析 的 函数 的 地 址 的 表 项 。 这 里 面 最 关键 的 一 个 技巧 
距 是 图 5-35 中 用 黑体 标识 的 GOT 表 中 的 两 项 。 编 详 时 ， 编 详 右 将 函数 对 
应 的 项 的 地 址 和 初始 化 为 PLT 代 人 码 厂 段 中 jmp 语 句 的 下 一 条 地 址 。 在 动态 
库 加 载 时 ， 动 态 耸 会 在 此 基础 上 ， 再 加 上 动态 库 的 映射 的 基 址 。 如 此 ， 


当 第 一 次 执行 这 个 函数 时 ，jmp 语 名 并 没有 跳 转 到 真正 的 函数 的 地 址 
处 ， 而 是 直接 相当 于 执行 PLT 代 码 片 段 中 的 下 一 条 语句 ， 即 压 栈 参数 ， 
然后 调用 _dl_runtime_resolve 解 析 函 数 地 址 ， 使 用 解析 的 符号 的 地 址 修 
订 GOT 表 中 的 项 ， 然 后 跳 转 到 解析 的 函数 的 地 址 ， 执 行 函数 。 


这 里 不 和 是 否 有 读者 有 过 这 样 的 设想 : 程序 加 载 时 ， 将 函数 的 GOT 
表 项 直接 填写 为 函数 dl runtime resolve 的 地 址 ， 是 不 是 更 合理 ? 非 
也 ，GOT 表 一 项 只 有 4 字 节 ， 只 能 保存 一 个 地 址 ， 而 调用 


_d runtime_ resolve 之 前 ， 还 需要 其 他 指令 准备 参数 。 


经 过 第 一 次 调用 后 ，GOT 和 未 中 的 函数 对 应 的 项 已 经 变 为 真正 的 函数 
的 地 址 ， 下 座 再 识 调 用 时 ， 将 直接 跳 转 到 函数 的 地 址 继续 执行 ， 如 图 5- 


36 上 所 示 。 


funcl@plt: 
04 jmp*0xc(%ebx) 
06 push $0x0 


O77 push Ox4(%ebx) 
08 jmp *0x8(%ebx) 


func2@plt: 


Ob jmp *0x10(%ebx 
Qe else 


0d “push $0x8 
be push Ox4(%ebx) 
of -jmp *0x8(%ebx) 





plt code segment 


图 5-36 PLT 代码 片段 


观察 图 5-36 会 发 现 ，PLT 中 func1@plt 中 的 地 址 为 0x7 和 0x8 处 两 行 的 
代码 ， 以 及 func2@plt 中 地 址 0xe 和 0xf 处 的 代码 完全 一 样 。 事 实 上 ， 所 有 
函数 的 PLT 厂 段 的 最 后 两 行 都 完全 相同 。 于 是 ，PLT 将 这 两 行 代码 独立 
为 一 个 “ 子 函 数 ”plt0。 进 一 步 改 进 后 PLT 的 代码 如 图 5-37 所 示 。 


pltO: 
01 push Ox4(%ebx) 
02 jmp *0x8{(%ebx) 


funcl@plt: 





fu nc<@pt 

0; 

ob jmp *0x10(%ebx) 
Qe-else 


0d push $0x8 
0 


图 5-37 ”PLT 代码 厅 段 


下 面 我 们 以 库 libf1 中 的 冰 数 fool func 调 用 库 libf2 中 的 了 消 数 foo02 func 
为 例 ， 来 具体 体会 一 下 前 面 的 理论 分 析 。 反 汇编 库 libfoo2， 并 截取 引用 
图 数 foo2_func 的 有 天 部 分 : 


root@baisheng:~/demo# objdump -Q 1Libfl.so 
Disassembly of section .plt: 

00000420 < cxa finalize@plt-0x10>: 

420: EE Ba 04 BO BO Do pushl1 0x4 (%ebx) 


426 : ff Sa3 O08 00 00 O00 jmp * 0X8 (Sebx) 


00000450 <foo2 func@plt>: 


450: tf a3 1 0 0 0 jmp * 0X14 (Sebx) 
Ms og 30 GQ BO BY push RD 
45b : 人 号 C0 FE ££ Ef ]mp 420 < init+0x24> 


Disassembly of section .七 eXt : 


00000460 <deregister tm clones>: 
460: 55 push Sebp 


OOO cionl Funs 


9 Sd 8 二 :二 开 寺 call 450 <foo2 func@plt> 
5b8: 83 Cd 14 add SOx14,%esp 


先 来 看 地 址 0x5b3 处 的 指令 。 汇 编 指令 cal 的 操作 数 0xfffffe98 ( 补 
码 ) 对 应 的 原 码 是 -0x168，call 指 令 的 操作 数 是 一 个 相对 寻 址 ， 
此 -0x168 是 目标 地 址 和 下 一 条 指令 的 雳 值 。 因 为 下 一 条 指令 的 地 址 是 
0x5b8， 所 以 跳 转 的 目的 地 址 是 : 


0X5D8 —- OxXxl168 = 0x450 


地 址 0x450 处 正 是 PLT 中 对 应 函数 foo2_func 的 片段 。 我 们 看 到 地 址 
0x450 处 的 汇编 指令 跳 转 到 GOT 表 中 偏 移 为 0x14 处 中 的 值 表 示 的 地 址 
人 处。 那么 GOT 表 中 这 个 位 置 处 保存 的 是 什么 呢 ?” 我 们 需要 到 记录 函数 重 


定位 的 表 一 一 .rel.plt 中 寻找 答案 : 





root@baisheng:~/demo# readelf -r libfl.so 


Relocation section '.rel .plt' at offset 0x3e4 contains 3 entries: 
Offset Info Type Sym.Value Sym. Name 
0000200C 00000307 R 386 JUMP SLOT 00000000 Cxa finalize 
00002010 00000407 R 386 JUMP SLOT 00000000 gmon start 
00002014 00000607 R 386 JUMP SLOT 00000000 foo2 func 


动态 库 libf1 的 GOT 表 的 基 址 为 0x2000， 所 以 偏 移 0x14 处 的 地 址 即 为 
0x2014， 也 就 是 重 定 位 表 中 的 第 3 条 记录 。 可 见 ， 这 条 重 定 位 记录 要 求 
动态 链接 如 使 用 特写 foo2_func 的 值 填 序 地址 为 0x2014 处 的 GOT 表 项 。 根 
据 前 面 的 理论 分 析 ， 初 始 时 ， 这 个 地 址 指向 下 一 条 push 指 令 ， 即 地 址 
0x456 处 的 指令 。 所 以 ， 当 首次 调用 foo2_func 时 ， 地 址 0x450 处 的 指令 跳 
转 到 了 地 址 0x456 处 。 


地 址 0x456 处 的 指令 压 栈 了 一 个 立即 数 0x10。 根 据 前 面 的 理论 分 
析 ， 这 是 为 符号 解析 函数 _d]_runtime_resolve 压 栈 的 一 个 参数 ， 即 需要 
重 定位 的 函数 在 重 定位 表 中 的 仿 移 。 根 据 重 定位 表 中 的 信息 ， 函 数 
_dl_runtime_resolve 就 可 以 找到 与 重 定 位 函数 相关 的 信息 ， 如 重 定位 函 
数 的 符号 名 称 、 需 要 修订 的 位 置 等 。0x10 用 十 进 制 表示 是 16， 也 就 是 从 
重 定位 表 .rel.plt 开 始 偏 移 16 字 节 ， 重 定位 表 中 每 个 条 目 占据 8 字 节 ， 因 此 
偏 移 16 字 节 处 的 第 3 条 重 定位 记录 正 是 记录 函数 f002-func 的 重 定位 信 


自 


J 已 vo 


继续 看 下 一 条 指令 ， 即 地 址 0x45b 处 的 指令 。 也 是 一 条 相对 跳 转 指 
令 ， 补 人 码 0xffffffc0 的 原 码 是 -0x40， 所 以 跳 转 的 目的 地 址 是 : 


OXxX460 一 Ox40 = 0x420 


objdump 工 具 虽 然 显 示 地 址 0x420 处 的 函数 的 名 字 
是 "cxa_finalize@plt-0x10"， 实 际 上 与 函数 "cxa_finalize" 没 有 任何 关 
系 ， 这 里 解析 的 有 一 点 bug， 和 忽略 即 可 。 地 址 0x420 处 束 是 PLT 表 的 第 0 
项 。 我们 看 到 plt0 首 先 将 GOT 表 中 偏 移 0x4 处 ， 即 GOT 表 第 2 项 的 值 〈 库 
libf1 的 link_map) 压 栈 ， 显 然 是 给 解析 函数 传 参 。 然 后 跳 转 到 GOT 表 的 
偏 移 0x8 处 ， 即 第 3 项 ， 也 就 古 解析 疯 数 _d]_rmuntime_resolve 的 地 址 处 执 
行 ， 该 录 数 解析 从 号 foo2_func， 然 后 使 用 解析 得 到 的 从 和 亏 f002-func 的 运 
行 时 地 址 修订 GOT 表 中 偏 移 0x14 处 ， 即 第 6 项 ， 然 后 跳 转 到 函数 
foo2_func 执 行 。 


首 次 调用 函数 fo02 func 后 ，GOT 表 中 第 6 项 保存 的 束 是 foo2 func 的 
地 址 了 。 以 后 再 次 调用 该 函数 时 ，PLT 中 的 foo2_func@plt 将 不 再 跳 转 到 
疯 数 _dl_runtime_resolve 处 解析 函数 了 ， 而 是 直接 跳 转 到 疯 数 fo02_func 
处 。 


在 静态 分 析 后 ， 下 面 我 们 再 动态 观察 一 下 函数 foo2_func 的 重 定位 过 


我 们 首先 来 看 一 下 编译 时 库 libf1 的 GOT 表 中 第 6 项 ， 即 偏 移 0x2014 
人 处， 保存 的 内 容 是 什么 ， 前 面 我 们 已 经 讨论 过 了 ， 理 论 上 这 里 应 该 是 
foo2_func@plt 中 push 指 令 的 地 址 : 


root@baisheng:~/demo# readelf -r libfl.so 


Relocation section '.rel .plt' at offset Ox3e4 contains 3 entries: 
Offset ENEGS Type Sym.Value Sym. Name 


00002014 00000607 R 386 JUMP SLOT 00000000 foo0o2 func 
root@baisheng:~/demo# objdump -D -j .got.plt libfl.so 
Disassembly of section .got.plt: 

00002000 < GLOBAL OFFSET TABLE >: 


20T4 58 push Sesl 


2015: 04 00 add SO0X0O ,各 己 工 


root@baisheng:~/demo# objdump -d -j .plt libfl.so 


00000450 <foo2 func@plt>: 


450: ff a3 14 00 00 00 jmp *Oxl4 (Sebx) 
456: 68 10 00 00 00 push SOx10 
45b: e9 cCc0 ff ff£f ff jmp 420 < lnit+0x24> 


注 间 上面 使 用 黑体 标识 的 部 分 ， 编 译 时 偏 移 0x2014 处 的 4 字 节 初始 
化 为 0x0456， 正 是 foo2_func@plt 中 push 指 令 的 地 址 。 


我 们 将 hello 运 行 起 来 ， 观 察 一 下 GOT 表 中 第 6 项 的 变化 情况 


root@baisheng:~/demo#t gdb ./hello 
(gdb} Db fool func 

Breakpoint 1 at Ox80484d0 
(gdb) r 

starting program: /root/demo/hello 


Preakpoint li; Dxb7fd8584 1n fool funec () from 11bfl;gso 


我 们 在 另外 一 个 终端 中 查看 库 libf1 在 进程 hello 的 地 址 空间 中 映射 的 


root@baisheng:~# ps -C hello -o pid= 
CN 
root@baisheng:~# cat /proc/3122/maps 
08048000-08049000 r-xp 00000000 08:01 1054223 /root/demo/hello 


b7fd8000-b7fd9000 r-xp 00000000 08:01 1047105 /root/demo/libfl1.so 


根据 输出 可 见 库 libf1 在 进程 hello 的 地 址 空间 中 映射 基 址 是 
0xb7fd8000。 虽 然 说 函数 foo2_func 的 地 址 是 在 使 用 时 再 去 重 定位 ， 但 是 
加 载 时 动态 链接 器 还 是 要 做 一 个 重 定位 。 读 者 不 禁 要 问 ， 重 定位 什么 
呢 ? 我 们 以 GOT 表 的 第 6 项 ， 即 偏 移 0x2014 处 的 值 为 例 。 在 编译 时 ， 我 
们 看 到 链接 器 将 此 处 的 地 址 填充 为 0x0456， 即 jmp 后 的 push 指 令 的 地 
址 。 但 是 不 知 读者 是 否 注 意 到 ， 这 个 地 址 是 相对 于 0 的 地 址 ， 在 加 载 
后 ， 当 动态 库 libf1 的 映射 基 址 确定 为 0xb7fd8000 后 ， 显 然 需 要 修订 这 个 
地 址 为 : 


Oxb7fd8000 + OX456 = Oxb7fd8456 


我 们 通过 gdb 看 一 下 实际 的 输出 : 


(gdb) x Oxb7fd8000 + 0OxX2014 
Oxb7fda0l4: Oxb7fd8456 


可 见 ，GOT 表 中 的 这 一 项 在 加 载 时 确实 修订 了 。 


在 foo2_func 第 一 次 执行 后 ， 这 个 GOT 表 中 的 地 址 束 应 该 修 订 为 
foo2 func 的 地 址 ， 我 们 看 一 下 库 1ibf2 中 为 foo2_func 分 配 的 地 址 : 


root@baisheng:~/demo# readelf -s libf2.so 


Symbol table '.dynsym' contains 13 entries: 
Num: Value Size Type Bind Vis Ndx Name 


Gs DOEOOGION D EUNG GLOBAL DEFAULT LE £0602 Unc 


而 动态 库 libf2 在 进程 hello 的 地 址 空间 中 映射 的 基 址 是 : 


root@baisheng:~/demo# ps -C hello -o pid= 


过 于 之 过 
root@baisheng:~/demo# cat /proc/3122/maps 
08048000-08049000 r-xp 00000000 08:01 1054223 /root/demo/hello 


b7el5000-b7e16000 r-xp 00000000 08:01 1054350 /root/demo/libf2.so 


有 所以， 符号 foo2 func 的 运行 时 地 址 是 : 


0XDb7e15000 + OX500 = 0XPp7ye15500 


我 们 通过 gdb 来 查看 一 下 foo2_func 执 行 一 次 后 ，GOT 表 中 的 保存 这 
个 函数 的 地 址 被 修订 成 了 什么 : 


(gdb) n 
Ox080485f4 in main {() 
(gdb) x Oxb7fd8000 + OX2014 


Oxb7fda0l14: Oxb7elS5S500 


可 见 ， 在 首次 调用 后 ，GOT 表 中 的 值 已 经 修订 为 符号 foo2_func 的 运 


行 时 地 址 。 


5.4.7 重 定 位 可 执行 程序 


可 执行 程序 如 果 引 用 的 是 自身 定义 的 函数 和 变量 ， 这 些 符号 在 编译 
时 就 已 经 确定 ， 不 需要 任何 重 定位 。 即 使 其 他 动态 库 中 也 定义 了 与 可 执 
行程 序 中 相同 的 符号 ， 链 接 器 也 优先 使 用 可 执行 程序 自身 定义 的 函数 和 
变量 。 


如 采 引 用 了 动态 库 中 的 函数 和 全 局 变量 ， 那 么 编译 时 可 执行 程序 根 
本 不 知道 这 些 符 号 最 终 的 地 址 ， 在 重 定 位 了 动态 库 之 后 ， 可 执行 程序 也 
要 重 定位 这 些 符号 。 可 执行 程序 的 重 定位 与 共 享 库 原 理 基 本 一 致 ， 只 
有 一 点 大 列 ， 我 们 这 里 简单 讨论 一 下 它们 之 则 的 差别 。 


(1) 重 定位 引用 的 动态 库 中 的 函数 


我 们 以 hello 中 引用 动态 库 libfl 中 的 疯 数 fool_func 为 例 ， 来 看 天 于 孙 
数 的 重 定 位 。 可 执行 程序 hello 中 调用 foo1_func 的 反 汇 编 代 码 如 下 : 


root@baisheng:~/demo# objdump -Q hello 
080485cc <main>: 


80485et : =- Sall 80484d0 <fool func@plt> 


可 见 ， 可 执行 程序 也 使 用 了 延迟 绑 定 的 技术 。 再 来 看 看 PLT 部 分 的 
代 但 : 


root@baisheng:~/demo# objdump -Q -] .plt hel1lc 


Disassembly of section .plt: 

08048480 <sleep@plt-0x10>: 
8048480: ff 35 04 a0 04 08 pushl 0x804a004 
8048486: ff 25 08 a0 04 08 ]mp x 0OX804a008 


080484d0 <fool func@plt>: 


80484d0: ff 25 lc a0 04 08 J] mp *O0x804a0lc 
80484d6: 68 20 00 00 00 push $0x20 
80484db: ee9 a0 ff ff ff ]mp 8048480 < init+0x28> 


与 动态 库 不 同 ， 可 执行 程序 的 地 址 在 编译 时 就 已 经 分 配 好 了 ， 所 
以 ，GOT 的 地 址 在 编译 时 就 确定 了 ， 不 必 再 如 动态 那样 在 运行 时 动态 获 
取 GOT 表 的 基 址 。 我 们 来 看 看 hello 的 GOT 表 的 基 址 : 


root@baisheng:~/demo# readelf -s hello | grep OFFSET TABLE 
44: 0804a000 0 OBJECT LOCAL DEFAULT 23 GLOBAL OFFSET TABLE 


GOT 表 的 基 址 为 0x0804a000， 所 以 任何 以 GOT 表 基 址 为 参照 的 偏 
移 ， 直 接 使 用 这 个 地 址 即 可 。 比 如 访问 GOT 表 中 的 第 3 项 ， 即 函数 
_dl_runtime_resolve 时 ， 直 接 在 此 地 址 上 加 两 个 4 字 节 偏 移 即 可 (因为 
_d]_runtime_resolve 占 据 GOT 表 的 第 3 项 ， 所 以 偏 移 8 字 节 ) : 


OXxX0804a000 + Ox4*2 = OXxXU0804a00s8 


观察 hello 中 plt0 部 分 ， 即 地 址 0x8048486 处 ， 我 们 看 到 ， 指 令 中 也 确 
实 是 这 么 做 的 ，jmp 的 目标 地 址 在 编译 时 就 计算 好 了 ， 就 是 
*Q0x804a008。 


除 GOT 表 的 基 址 固定 外 ， 可 执行 程序 函数 的 香 定 位 与 动态 库 中 函数 
的 重 定位 完全 一 致 。 


(2) 重 定 位 引用 的 动态 库 中 的 变量 


可 执行 程序 与 动态 库 不 同 ， 一 般 而 言 ， 其 地 址 是 纺 详 时 分 配 好 的 ， 
是 固定 的 ‘这 里 我 们 不 考虑 为 了 安全 而 使 用 PIE 拉 术 ) 。 如 朱 编 诺 时 没 
有 传 给 编 详 硕 参 数 "-fPIC"， 那 么 对 于 引用 的 外 部 的 全 局 变量 ， 可 执行 程 
序 不 使 用 GOT 表 的 方式 寻 址 。 换 句 话 说 ， 可 执行 程序 引用 的 变量 ， 在 编 
详 链接 时 束 圾 要 在 编译 链接 时 确定 好 地 址 ， 不 能 在 加 载 时 髓 进行 午 害 


位 。 


但 是 ， 编 译 时 动态 库 都 不 能 确定 目 己 的 变量 的 最 终 加 载 地 址 ， 更 别 
提 可 执行 程序 了 。 那 怎么 办 呢 ? 于 是 ELF 标 准 定义 了 一 种 新 的 重 定位 类 
型 一 一 R_386_COPY。 对 于 这 种 童 定位 类 型 ， 编 详 融 、 和 链接 和 右 和 动态 链 
接 器 是 这 样 协 作 的 : 编译 时 ， 编 译 器 将 偷偷 地 在 可 执行 程序 的 BSS 段 创 
建 了 一 个 变量 ， 这 样 就 解决 了 编译 时 ， 变 量 地 址 不 确定 的 问题 。 在 程序 
加 载 时 ， 动 态 链 接 画 将 动态 库 中 的 变量 的 初 人 复制 到 可 执行 程序 的 BSS 
段 中 来 。 然 后 ， 动 态 库 〈 包 括 其 他 动态 库 ) 在 引用 这 个 变量 时 ， 因 为 可 
执行 程序 在 link_map 的 最 前 面 ， 所 以 解析 符号 都 将 使 用 可 执行 程序 中 的 
这 个 偷偷 创建 的 变量 。 


下 面 我 们 结合 hello 引 用 动态 库 libf1 中 的 变量 foo1 来 具体 的 讨论 一 


下 。 先 来 看 一 下 hello 的 动态 从 号 表 : 


root@baisheng:~/demo# readelf -s hello 


Symbol table '.dynsym' contains 17 entries: 
Num: Value Size Type Bind V1is Ndx Name 
12: 0804a040 4 OBJECT GLOBAL DEFAULT 25 EL 


虽然 我 们 没有 在 可 执行 程序 中 定义 变量 foo1， 但 是 根据 动态 符号 表 
可 见 ， 可 执行 程序 hello 中 却 定义 了 变量 foo1， 其 所 在 地 址 是 
0x0804a028， 而 且 在 第 25 个 段 中 。 我 们 来 看 看 第 25 个 段 是 什么 : 


root@baisheng:~/demo# readelf -S hello 


Section Headers: 
[Nr] Name Type Addr Off Size 


L225] has NOBITS 0804a040 00102c 002020 


可 见 ， 第 25 个 段 是 .bss。 也 就 是 说 ， 编 译 时 ， 链 接 器 为 可 执行 程序 
hello 定 义 了 一 个 未 初始 化 的 全 局 变量 foo1。 而 hello 中 ， 使 用 的 恰恰 是 
hello 目 己 的 foo1， 而 不 是 库 libf1 中 的 foo1。 观 察 下 面 中 引用 的 符号 fool 
的 地 址 ， 正 十 hello 中 定义 的 从 号 foo1 的 地 址 : 


root@baisheng:~/demo# objdump -d hello 
080485cc <main>: 


80485e5 : C7 05 40 a0 04 08 05 movl SOx5, Ox804a040 


链接 器 将 hello 的 重 定 位 表 中 foo1 的 重 定位 类 型 设置 为 
R_386_COPY， 当 处 理 这 个 类 型 的 重 定 位 时 ， 动 态 链 接 器 将 在 加 载 时 ， 
将 库 ]libf1 中 变量 foo1 的 值 复制 到 hello 中 的 foo1: 


root@baisheng:~/demo# readelf -r hello 


Relocation section '.rel.dyn' at offset 0x420 contains 2 entries: 
Offset Hate Type Sym.Value Sym. Name 

08049ffc 00000406 R 386 GLOB DAT 00000000 gmon start 
0804a040 00000c05 R 386 COPY 0804a040 上 col 


下 面 我 们 将 程序 运行 起 来 ， 动 态 观察 一 下 R_386_COPY 类 型 的 重 定 


root@baisheng:~/demo# gdb ./hello 
(gdb) b main 
Breakpoint 1 at Ox80485cf 
(gdb) rr 
Starting program: /root/demo/hello 


Breakpoint 1, Ox080485cf in main () 


理论 上 上， 动态 链接 器 应 该 将 库 libf1 中 的 fool 的 初 值 10 复 制 到 hello 中 
定义 的 foo1 处 。 我 们 将 hello 中 定义 变量 foo1 所 在 地 址 实际 的 值 打印 出 
来 : 


(gdb) x 0x0804a040 
0x804a040 <fool>: 0x0000000a 


有 可见，hello 中 的 fool 己 经 被 赋值 为 库 1ibf1 中 的 foo1 的 初 值 10 了 。 


另外 ， 库 lib 人 中 GOT 表 中 保存 的 foo1 的 地 址 ， 也 应 该 指向 hello 中 定 
义 的 foo1 的 地 址 ， 而 不 是 库 ]ibf1 中 的 变量 foo1 的 地 址 。 原 因 是 链接 时 ， 
可 执行 程序 排 在 链表 link_map 的 表 头 ， 所 以 hello 中 的 符号 foo1 当 然 要 优 
先 于 库 libf1 中 的 foo1。 我 们 来 实际 验证 一 下 这 一 点 ， 首 先 找到 库 libf1 中 
变量 fool 所 在 位 置 : 


root@baisheng:~/demo# readelf -r libfl].so 


Relocation section '.rel.dyn' at offset 0x38c contains 11 entries: 
Offset 了 Type Sym.Value Sym. Name 


00001ff8 00000c06 R 386 GLOB DAT 0000201c fool 


在 另外 一 个 终端 中 得 看 库 libf1 在 进程 hello 的 地 址 空间 中 映射 的 基 
址 : 


root@baisheng:~/demo#t# ps -C hello -o pid= 


3346 
root@baisheng:~/demo# cat /proc/3346/maps 
08048000-08049000 r-xp 00000000 08:01 1054223 /root/demo/hello 


b7fd8000-b7fd9000 r-xp 00000000 08:01 1047105 /root/demo/libf1.so 


库 ]libf1 的 GOT 表 中 记录 符 写 foo1 的 地 址 是 : 


OXxXD7Id8000 + OxXxlfi8 = OXb7Iid9tf8 


我 们 打印 一 下 GOT 表 中 有 的 值 : 


(gdb) x Oxpb7fdsffe8 
Oxb7fd9ffs: Ox0804a040 


根据 输出 可 见 ， 地 址 0x0804a040 正 是 hello 中 定义 的 符号 foo1 的 地 
址 。 可 见 ， 动 态 库 libf1 中 使 用 的 fool 变 量 是 可 执行 程序 中 创建 的 这 个 副 
本 。 显 然 ， 虽 然 这 个 副本 仪 仪 是 编译 器 为 其 偷偷 分 配 的 ， 但 是 实际 已 经 


取代 了 库 libf1 中 的 foo1， 已 经 转正 了 。 


当然 ， 在 编译 可 执行 程序 时 也 可 以 给 其 传递 参数 "-fPIC"， 如 此 ， 可 
执行 程序 中 对 外 部 变量 的 应 用 也 将 采用 GOT 表 的 方式 ， 但 是 这 对 可 执行 
程序 没有 任何 意义 。 


在 Linux 中 ， 动 态 链接 如 


事实 上 ， 


5.4.8 重 定 位 动态 链接 上 需 


它 在 编译 时 也 不 知道 


查看 一 下 动态 链接 耸 的 重 定位 表 束 可 见 其 需 


被 实现 为 一 个 动态 库 的 形式 ， 而 且 这 个 动 
态 库 是 自 包含 的 〈self-contained) ， 没 有 引用 其 他 库 的 符号 ， 
通 动态 库 一 样 的 道理 ， 
难 逃 重 定位 的 命运 。 
管理 相关 函 


但 征 与 普 


目 己 的 确切 位 置 ， 所 以 它 也 
当 C 库 加 载 后 ， 动 态 链 接 使 用 了 C 库 中 的 
数 答 换 了 目 身 的 实现 。 


要 重 定位 的 符 扎 


root@baisheng:/vita/sysroot/lib# readelf -r ld-2.15.so 


Relocation section 


i 


at offset 0x6d0 contains 13 entries: 


Offset Info Type Sym.Value Sym. Name 

00020e48 00000008 R 386 RELATIVE 

00020ffc 00000606 R 386 GLOB DAT 00015780 free 

Relocation section '.rel.plt' at offset 0x738 contains 6 entries: 

Offset Enteo Type Sym.Value Sym. Name 

0002100c 00000b07 R 386 JUMP SLOT 000155e0 libc memalign 

QU0021010 QO0001007 FR 386 JHMP SEOT 000156f0 malloc 

00021014 00000d07 R 386 JUMP SLOT QO0QOLS R20 CL EG 

00021018 00000707 R 386 JUMP SLOT 00015860 realloc 

0002101c 00001207 R 386 JUMP SLOT 00011f50 ”上 ls get addr 

00021020 00000607 R 386 JUMP SLOT 00015780 free 

日 加 昌 医 : mz 人 mz 人 
但 是 ， 与 动态 库 和 可 执行 程序 人 不同， 它们 有 动态 链接 可 负 贡 为 它们 


午 定 位 ， 而 动态 链接 融 则 没有 这 么 好 的 命 。 在 内 核 跳 转 到 动态 链接 可 
时 ， 它 是 非常 残酷 的 ， 并 没有 给 动态 链接 右 如 link_map 信 息 。 好 在 动态 
链接 右 不 依赖 其 他 的 动态 库 ， 只 需要 确定 目 己 被 加 载 的 基地 址 ， 然 后 找 


到 动态 链接 需要 的 段 .dynamic 融 可 以 解决 问题， 后 续 的 重 定位 过 程 与 动 
态 库 的 过 程 基本 完全 相同 。 因 此 ， 动 态 链 接 器 重 定 位 自己 的 关键 是 : 


令 人 硼 定 目 己 被 加 载 的 基地 址 ; 
仿 找到 段 .dynamic。 


动态 链接 耸 被 加载 的 地 址 惑 相当 于 link_ map 中 的 L_addr 了 。 运 行 
， 动 态 链接 器 可 以 获取 到 某 个 符号 的 地 址 ， 但 是 这 并 不 足以 计算 出 动 
态 链 接 器 在 进程 地 址 空间 中 映射 的 基 址 ， 只 有 对 比 ， 才 能 求 出 基 址 。 因 
此 ， 动 态 链接 器 还 是 需要 编译 时 的 链接 器 作 一 点 小 小 的 配合 。 在 编译 


上 时， 链接 需 定义 了 一 个 符号 " DYNAMIC": 


tl 


EE 


root@baisheng:/vita/sysroot/lib# readelf -s ld-2.15.so 
Symbol table '.symtab' contains 584 entries: 
Num: Value Size Type Bind Vis Ndx Name 
353: 00020t3C 0 OBJECT LOCAL DEFAULT 15 DYNAMIC 


511: 00021000 0 OBJECT LOCAL DEFAULT 17 GLOBAL OFFSET TABLE 


定义 这 个 符 亏 的 目的 吏 是 为 了 标识 段 .dynamic 所 在 的 地 址 ， 看 下 面 


动态 链接 器 的 Section Header Table: 


root@baisheng:/vita/sysroot/lib# readelf -S ld-2.15.so 


Section Headers: 
[Nr] Name Type Addr Sr Size 


[15] .dynamic DYNAMIC O0020f3cC Qtrf3e 0000b8 


由 上 可 见 ， 符 号 _DYNAMIC 的 地 址 正 是 段 .dynamic 的 地 址 。 在 运行 
时 ， 动 态 链接 器 使 用 如 X86 指 令 lea 该 取 符 号 _ DYNAMIC 的 运行 时 地 址 ， 


实际 束 是 读 取 运行 时 段 .dynamic 的 地 址 。 


除了 定义 了 这 个 符号 外 ， 在 编译 时 ， 段 .dynamic 的 地 址 也 被 装载 到 
了 GOT 表 中 的 第 1 项 。 读 者 回忆 一 下 在 5.4.6 闻 讨论 GOT 表 时 的 内 容 。 其 
中 ， 第 2 项 的 link_map 和 第 3 项 的 解析 函数 我 们 都 已 经 看 到 其 作用 了 ， 但 
是 尚未 看 到 第 1 项 的 意义 。 在 重 定位 动态 链接 器 时 ， 这 一 项 发 挥 了 关键 
作用 。 前 面 我 们 束 已 经 看 到 过 ， 编 译 时 定义 了 另外 一 个 符号 
_GLOBAL_OFFSET_TABLE_， 目 的 与 DYNAMIC 相 似 ， 是 为 了 标识 
GOT 表 的 地 址 。 因 此 ， 动 态 链 接 右 就 可 以 使 用 符号 
_GLOBAL _OFFSET_TABLE 找到 GOT 表 ， 从 而 取出 GOT 表 中 第 1 项 的 


值 。 


然后 ， 使 用 取得 的 符号 _ DYNAMIC， 也 就 是 段 .dynamic 的 运行 时 地 
址 ， 与 GOT 表 第 一 项 在 编译 时 保存 的 段 .dynamic 的 地 址 (其 是 相对 于 0 
的 ) 做 差 ， 得 出 的 就 是 动态 链接 器 在 进程 地 址 空间 映射 的 基 址 了 。 相 关 
代码 如 下 : 


libDeo=2Z 1T5AGLE/ TEL 
static ElfW(Addr) attribute used internal function 
EC 


人 


bootstrap map.1 addr = elf machine load address (); 


/* Read our own dynamic section and fill in the info array. */ 
bootstrap map.l1 ld = (void *) bootstrap map.l1 addr + 


elf machine dynamic (); 
elf get dynamic info (&bootstrap map, NULL); 


注意 和 变量 bootstrap_map， 相 信 从 名 字 读 者 已 经 猪 出 来 了 了 人， 相当 于 代 
表 普 通 动 态 库 和 执行 程序 的 link_map。 而 且 根 据 这 个 变量 的 名 字 ， 我 们 
也 可 以 拉 摩 到 开发 者 的 用 意 是 在 表达 这 是 动态 链接 器 的 目 举 过 程 。 变 量 
bootstrap_map 中 的 关键 两 项 读者 应 该 非 第 熟 秋 了 ，1_addr 是 代表 动态 链 
接 器 自己 被 映射 的 地 址 ，L_1d 代 表 动 态 链 接 器 的 段 .dynamic 所 在 的 地 
址 。 找 到 上段 .dynamic 后 ， 动 态 链接 器 调用 elf_get_dynamic_info 读 取 了 这 


个 段 的 信息 。 
我 们 来 看 看 获取 1 addr 和 1 1d 这 两 个 地 址 的 函数 : 


glibc-2.15/sysdeps/i386/dl-machine.h: 


static inline Elf32 Addr attribute ((unused, const)) 
elf machine dynamic (void) 
extern const Elf32 Addr GLOBAL OFFSET TABLE [|] 
attribute hidden; 
return GLOBAL OFFSET TABLE [0]; 


| 


static inline Elf32 Addr attribute ((unused)) 
elf machine load address (void) 


{ 


extern Elf32 Dyn bygotoff[] asm (" DYNAMIC") attribute hidden; 
return (ELt32 Addr) &bygotoff - elf machine dynamic () ; 


} 


疯 数 elf_machine_dynamic 利 用 在 编译 时 定义 的 从 号 
_GLOBAL_ OFFSET_TABLE 读 取 GOT 表 中 第 0 项 的 值 。 


图 数 elf_ machine load_address 计 算 动态 链接 堪 加 载 的 地 址 。 其 首先 
取得 符号 DYNAMIC 的 运行 时 地 址 ， 对 于 x86 来 说 ， 可 以 使 用 指令 lea， 
然后 与 GOT 表 中 保存 的 编译 时 的 地 址 做 差 ， 从 而 得 出 动态 库 在 进程 地 址 
空间 中 映射 的 基 址 。 


事实 上， 动态 连接 亏 重 定位 表 中 的 那些 动态 内 存 党 理 的 函 数 ， 如 
malloc、free 等 ， 最 初 动 态 链接 需 使 用 的 是 目 己 内 部 的 实现 : 


glibc-2.15/elf/dl-minimal .c: 
voOld * weak function malloc (silze 七 n) 


| 
| 


VOLId weak function tree (void *ptr) 


| 
| 


但 是 一 旦 C 库 加 载 后 ， 动 态 链 接 硕 将 冉 次 重 定位 这 几 个 函数 ， 使 用 
C 库 中 的 相应 实现 。 


5.4.9 段 RELRO 


最 初 ， 编 详 时 链接 右 并 没有 过 多 考虑 ELF 文 件 中 各 个 段 的 布局 ， 一 
个 ELE 文 件 各 个 段 的 大 致 布 局 如 图 5-38 所 示 。 


Code Segment Data Segment 
(ro & exec) rw 


.bss Overflow 





.data overflow 
L 


.text section, ,,, .data section .got section, .., .bss section 
图 5-38 早期 ELF 文 件 段 的 布局 


可 见 ， 动 态 链接 器 重 定位 涉及 的 GOT 表 、 段 .dynamic 都 位 于 数据 段 
的 后 面 ， 一 旦 数据 段 发生 洲 出 ， 动 态 链接 器 使 用 的 GOT 表 、 上 段 .dynamic 
都 可 能 受到 破坏 ， 尤 其 是 作为 函数 跳 转 表 的 GOT 表 ， 更 容易 被 攻击 者 利 
用 。 而 事实 上 ， 除 了 函数 被 延迟 到 运行 时 重 定位 外 ， 变 量 等 的 重 定 位 在 
加 载 时 束 己 经 完成 了 ， 后 续 动 态 链 接 器 不 再 会 对 这 些 段 进行 写 操 作 ， 也 
驶 是 说 完全 可 以 在 完成 加 载 时 重 定位 后 ， 把 这 部 分 数据 修改 为 只 读 。 


因此 ， 如 今 的 链接 右 重 新 安排 了 各 个 段 的 布局 ， 将 动态 链接 郁 涉 及 
到 的 段 所 到 了 数据 段 的 前 面 ， 并 将 GOT 拆 分 为 两 个 部 分 : .got 
和 .got.plt。.got 部 分 用 于 记录 需要 重 定 位 的 变量 ，.got.plt 部 分 用 于 记录 需 


要 重 定位 的 函数 。 在 加 载 时 完成 重 定位 后 ， 除 了 .got.plt 仍 然 保留 可 写 属 
性 ， 人 允许 在 运行 时 进行 重 定位 外 ， 包 括 .got 在 内 的 其 余部 分 全 部 更 改 为 
只 读 ， 减 少 被 攻击 的 可 能 


这 些 在 重 定 位 后 更 改 为 只 读 的 段 被 称 为 RELRO 段 。 从 Program 
Header Table 的 角度 看 ， 段 RELRO 仍 然 包含 于 数据 段 中 ， 只 不 过 是 数据 
段 开头 部 分 一 块 只 读 的 数据 而 已 。 经 过 上 述 调整 后 ， 一 个 ELF 文 件 的 大 
致 布 局 演化 为 如 图 5-39 所 示 的 形式 。 


Code Segment Data Segment 


一 & exec) 


ke 


.text section, 


四 机 data section | |.bss overflow 
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Segment .got.plt section 


(ro) 


图 5-39 使 用 RELRO 后 ELF 文 件 的 布局 


在 加 载 时 完成 午 定 位 后 ， 动 态 链 接 问 将 检查 ELF 文 件 的 Program 
Header Table 中 是 否 存 在 段 RELRO。 如 果 这 个 段 存 在 ， 则 将 这 个 段 更 改 
为 只 谈 ， 从 而 达到 保护 更 多 数据 的 目的 。 相 关 代 码 如 下 : 


glibc-2.15/elf/dl-reloc.c: 


Vol1d dl Telocate ObJect (struct: link map Le wom)} 


( 


if {l=>1 relro size l= 0) 
wl Protect relro (Ls 


} 


void internal function dl protect relro (struct link map *]1) 


人 


if (start != end 
&&k mprotect ((void *) start; end - start, PROT READ) < 0) 


其 中 _d]_relocate_object 束 是 动态 链接 中 负 员 加 载 时 重 定位 的 沙 数 。 
在 这 个 函数 的 最 后 ， 也 就 是 加 载 时 重 定 位 完成 后 ， 这 个 浮 数 调用 
_dl_protect_relro 修 改 段 RELRO 的 权限 为 只 读 。 吗 数 _d]_protect_relro 逻 辑 
非常 简单 ， 就 是 通过 函数 mprotect 请 求 内 核 更 改 段 RELRO 的 属性 为 
PROT READ。 


编译 时 链接 右 并 没有 强制 使 用 RELRO 这 个 特性 ， 如 果 需 要 使 用 这 
个 特性 ， 在 链接 时 需要 回 链 接 需 传递 参数 "-z relro"。 以 笔者 使 用 的 
Ubuntu12.10 为 例 ， 可 以 看 到 在 编译 时 编译 器 确实 给 链接 器 传递 了 这 个 
参数 ， 注 意 下 面 使 用 黑体 标识 的 部 分 : 


root@baisheng:~# gcc -dumpspecs 


*]link command: 
${!fsyntax-only:%{!c:%{!M:%{!MM:%{!E:%{!S: %S(linker) ...-2 relro ... 


在 我 们 构建 的 工具 链 中 ， 为 简单 起 抑 ， 并 没有 默认 局 用 RELRO 特 
性: 


理解 了 RELRO 的 设计 动机 以 及 理论 背景 后 ， 我 们 结合 一 个 实例 来 
具体 体验 一 下 这 个 特性 。 以 下 面 程序 为 例 : 


hello.c: 
i#include <stdl1ib.h: 


VO1ld malinl) 


| 
) 


while(l1) sleep(1000); 


我 们 使 用 如 下 命令 分 别 编 诺 不 文 持 RELRO 特 性 和 文 持 RELRO 特 性 
的 两 个 可 执行 程序 : 
vita@baisheng:~$ 1i686-none-l]linux-gnu-gcc -o hello hello.c 


vita@baisheng:~$ i686-none-linux-gnu-gcc -Wl,-z,relro \ 
-=O hello relro hello';c 


其 中 ，hello 古 不 支持 RELRO 特 性 的 ，hello_relro 是 支持 RELRO 特 性 
的 。 我 们 首先 对 比 一 下 这 两 个 程序 的 Program Header Table，hello 的 
Program Header Table 如 下 : 


vita@baisheng:~$ readelf -1 hello 

Program Headers: 
Type Offset VirtAddr PhysAddr FileSiz MemSiz 
PHDR Ox000034 Ox08048034 0x08048034 0X00100 Ox00100 


GNU STACK Ox000000 Ox00000000 0xXx00000000 0X00000 0X00000 


hello_relro 的 Program Header Table 如 下 : 


vita@baisheng:~$ readelf -1 hello relro 


Program Headers: 


Type Offset VirtAddr PhysAddr FileSiz MemSiz 
LOAD Ox000000 Ox08048000 0x08048000 0x00608 0x00608 
LOAD Ox000f20 Ox08049f20 0x08049f20 0x00100 0O0x00108 
GNU STACK OXxX000000 OxXx00000000 0X00000000 0X00000 0X00000 
GNU RELRO Ox000f20 0x08049f20 0x08049£f20 0x000e0 0x000e0 


Section to Segment mappling: 
Segment Sections... 


08 .Ctors .dtors .jcr .dynamic .got 


留意 hello_relro 的 Program Header Table 中 使 用 黑体 标识 的 部 分 。 显 


然 ， 相 比 于 程序 heallo，hello relro 中 多 了 段 "GNU RELRO"。 


读者 可 能 会 有 个 疑问 ， 前 面 不 是 提 到 内 核 只 加 载 ELF 文 件 中 类 型 为 
LOAD 的 段 吗 ， 那 么 这 个 类 型 为 GNU_RELRO 的 段 会 被 加 载 吗 ?请 仔细 
观察 段 RELRO 与 第 2 个 类 型 为 LOAD 的 段 〈 即 数据 段 ) 的 Offset 一 列 ， 可 
几 ，RELRO 上 段 在 hello_relro 中 偏 移 与 数据 段 在 hello_relro 文 件 中 的 仿 移 相 
同 。 换 句 话 说 ，RELRO 段 正 是 数据 段 的 开头 部 分 ， 所 以 在 加 载 数据 段 
时 ， 已 经 隐 含 痢 将 段 RELRO 加 载 了 。 


接 下 来 ， 我 们 再 来 动态 的 观察 一 下 特性 RELRO。 这 里 偷 个 懒 ， 
为 目标 系统 也 是 x86 的 ， 所 以 笔者 下 接 在 答 主 系统 上 运行 了 ， 旋 者 当然 
可 以 将 hello_relro 复 制 到 目标 系统 做 这 个 试验 。hello 的 进程 地 址 空间 的 


映射 情况 如 下 : 


vita@baisheng:~$ ./hello & 


[1] 4320 

vita@baisheng:~$ cat /proc/4320/maps 

08048000-08049000 r-xp 00000000 08:03 9447286 /home/vita/hello 
08049000-0804a000 rw-p 00000000 08:03 9447286 /home/vita/hello 


b753e000-b753f000 rw-p 00000000 00:00 0 


hello_relro 的 进程 地 址 空间 的 映射 情况 如 下 : 


vita@baisheng:~$ ./ hello relro & 

[之 注 328 

vita@baisheng:~$ cat /proc/4328/maps 

08048000-08049000 r-xp 00000000 08:03 9447303 
/home/vita/hello relro 

08049000-0804a000 r--p 00000000 08:03 9447303 
/home/vita/hello relro 

0804a000-0804b000 rw-p 00001000 08:03 9447303 
/home/vita/hello relro 

b7559000-b755a000 rw-p 00000000 00:00 0 


对 比 hello 和 hello_relro 的 进程 空间 的 映射 情况 ， 注 意 hello_relro 映 射 
中 使 用 黑体 标识 的 部 分 ， 可 见 ，hello_relro 在 0x08049000~0x0804a000 多 
映 喘 了 一 个 只 读 的 段 ， 没 错 ， 这 个 段 束 是 段 RELRO。 显 然 ， 因 为 其 与 
后 面 的 数据 段 权 限 不 同 ， 所 以 内 核 为 这 个 段 单 独 分 配 了 一 个 


vm_struct area 对 和 象 。 


事实 上 ， 不 仅 是 可 执行 程序 ， 动 态 库 也 是 如 此 。 读 者 可 以 目 己 做 些 
对 比 弃 验 ， 这 里 不 再 资 述 。 


第 6 章 ”构建 很 文件 系统 


在 第 3 章 中 ， 我 们 通过 手工 的 方式 展示 了 从 零 构 建 根 文件 系统 的 过 
程 。 在 本 章 中 ， 我 们 将 构建 一 个 相对 完善 的 根 文件 系统 ， 但 是 我 们 不 再 
从 零 开始 ， 毕 竟 一 旦 熟悉 了 原理 后 ， 余 下 的 就 是 简单 的 重复 了 。 第 2 章 
编译 工具 链 时 曾 通 过 参数 "--with-sysroot" 指 定 了 目标 系统 的 文件 安装 的 
目录 ， 后 续 所 有 的 为 目标 系统 编译 的 文件 全 部 安装 到 了 这 个 目录 下 。 因 
此 ， 在 本 章 中 ， 我 们 就 基于 这 个 目录 下 的 文件 构建 运行 在 真实 系统 上 的 
根 文件 系统 。 


为 了 更 融 效 地 开 友 人 调试， 我 们 站 先 打通 了 目标 系统 的 网 络 ， 建 并 了 
特 主 系统 与 目标 系统 的 桥 桨 ， 包 丘 配 置 内 核 文 持 网 络 协议 以 及 网 卡 张 
动 ， 并 安装 了 用 户 空间 的 网 络 配置 工具 。 如 此 ， 我 们 束 可 以 远程 登录 到 
目标 系统 上 进行 调试 ， 并 且 可 以 动 在 更 新 文件 〈 除 内 核 和 initramfs 外 ) 
而 不 必 再 每 次 都 重 司 系统 。 


几乎 所 有 的 现代 操作 系统 都 提供 图 形 用 户 界 面 ，Linux 也 不 例外 。 
友 省 理工 的 开发 者 们 为 UNIX 系 统 开发 了 X 窗 口 系统 (X Window 
System， 简 称 X 或 者 X11) 作为 图 形 环境 。 除 了 X 外 ， 另 外 一 个 需要 关注 
的 图 形 环境 是 wayland。 虽 然 wayland 的 目标 是 替代 X， 并 且 开 源 社区 也 
文 持 Wayland 回 着 这 个 方 加 发展， 但 是 wayland 距 广泛 使 用 还 有 一 段 路 
要 走 。 因 此 ， 在 本 章 中 ， 我 们 依然 以 目前 广泛 使 用 的 X 构 建 基础 的 图 形 


环境 ， 并 安 友 了 GTK 作 为 更 上 层 的 图 形 库 。 事 实 上 ，Wayland 更 像 是 又 
的 一 次 整合 或 者 重 构 ， 在 第 8 章 探讨 Linux 的 图 形 原 理 时 ， 我 们 会 拿 出 一 


点 扁 帼 讨论 Wayland， 在 那里 我 们 会 看 到 ，Wayland 和 X 之 间 并 无 本 质 区 
别 。 


6.1 初始 根 文件 系 统 


因为 我 们 使 用 的 是 vita 用 户 进 行 编译 过 程 ， 所 以 $SSYSROOT 目 录 下 
的 所 有 文件 的 属 主 和 属 组 都 是 vita， 如 果 对 安全 问题 有 顾虑 ， 在 最 终 将 
其 作为 根 文 件 系 统 时 ， 可 以 将 该 目录 下 的 所 有 文件 ， 包 括 目录 的 属 主 和 
属 组 ， 更 改 为 root。 


万 外 ， 为 简单 起 抑 ， 我 们 也 没有 郑 碟 文件 系统 的 大 小 。 如 果 是 为 一 
个 真实 的 系统 制作 根 文 件 系 统 ， 那 么 可 以 考虑 进行 一 些 优化 ， 比 如 对 二 
进 制 文件 和 动态 库 使 用 命令 strip 删 际 一 些 运 行 时 不 需要 的 信息 和 符 写 表 

; 删除 那些 只 是 在 编 详 时 使 用 的 头 文件 和 静态 库 ， 等 等 。 


上 面 讨论 的 痢 不 是 必须 的 ， 如 来 仅 作 为 一 个 用 于 测试 的 系统 ， 完 全 
可 以 不 上 必 理 会 ， 下 面 是 必须 要 做 的 几 件 事 。 


(1) 安装 GCC 库 


在 前 面 编译 GCC 时 ， 我 们 已 经 看 到 ，GCC 也 将 部 分 底层 函数 封装 到 
库 中 ， 很 多 程序 会 使 用 GCC 的 这 些 库 ， 因 此 ， 我 们 也 将 这 部 分 程序 安装 
到 根 文件 系统 中 。 我 们 只 安装 运行 时 使 用 的 动态 库 及 对 应 的 运行 时 符号 
链接 ， 当 然 ， 系 统 中 并 不 一 定 会 用 到 全 部 这 些 库 ， 但 是 简单 起 见 ， 这 里 
全 部 安装 了 : 


Vitae@baisheng:/vitas cp -QQ \ 
cross-tool/i686-none-linux-gnu/lib/lib*.so.*[0-9] \ 
Ee 


(2) 建立 相关 目录 


在 前 面 讨论 从 initramfs 切 换 a 到 根 文件 系统 时 ， 我 们 看 人 到， 切换 程序 
将 最 初 挂 载 到 文件 系统 rootfs 中 的 /dev、/run、/proc 和 /sys 目 录 移 动 到 真 
正 的 根 文件 系统 ， 因 此 ， 我 们 需要 在 根 文 件 系统 上 建立 这 几 个 目录 。 另 
外 我 们 也 为 root 用 户 建 立 一 个 属 主 root 目 录 : 


vita@baisheng: /vita/sysroots mkdir sys proc deyv run root 
(3) 构建 程序 /sbin/init 


在 内 核 初 始 化 的 最 后 ， 局 动 的 第 一 个 进程 要 疤 载 用 户 空 间 的 程序 从 
而 切入 用 户 空 间 ， 通 常 这 个 程序 是 /sbin 目 录 下 的 init， 因 此 我 们 要 准备 
这 个 程序 。 为 简单 起 见 ， 我 们 也 使 用 shell 脚 本 编写 : 


/vita/sysroot/sbin/init: 
#1!/bin/bash 


export HOME=/root 
exec /bin/bash -1 


init 局 动 了 一 个 交互 式 的 shell。 其 中 传递 的 参数 "-]" 是 告诉 bash 以 登 
录 方 式 局 动 ， 这 样 可 以 使 bash 讯 取 在 /etc/profile、~/.profile 等 文件 中 定义 


的 环境 变量 。 同 时 要 确保 init 程 序 具 有 可 执行 权限 : 
vita@baisheng:/vita/sysroot/sbins chmod a+x init 


为 了 让 shell 提 示 从 看 上 去 友好 一 些 ， 虽 单机 的 是 为 了 后 面 当 从 答 主 
系统 远程 登录 人 到 vita 系 统 时 ， 方 便 区 分 本 地 终端 和 登录 到 vita 的 终 珊 ， 我 
们 在 全 局 范围 的 profile 文 件 中 定义 了 环境 变量 PS1 来 控制 shel 提 示 符 的 显 
示 内 容 和 风格 : 


/vita/sysroot/etc/protile: 


export PS1="\ [\e[31;1lm\] \u@vita: \[\e[35;1lm\] \w# \[\e [Om\]" 


其 中 ，"\u" 告 诉 shell 显 示 当 前 用 户 名 ; "Ww" 告诉 shell 显 示 完 整 的 工作 
路 径 ; 我 们 将 主机 名 直接 硬 编码 为 vita， 为 了 便于 区 分 是 本 地 的 终 
征 登 入 vita 的 终 闪 :， 接 下 来 我 们 给 提示 人 符 加 一 氮 水 宛 的 凑 
色 ，'e[" 与 "rm" 之 间 的 内 容 表示 颜色 值 ， 在 它们 之 外 包围 的 [与信 ”是 
保证 其 内 的 非 打 印字 符 ， 不 占用 任何 空间 。 颜 色 设置 的 格式 为 
[e[F;B;CmN"， 其 中 F 是 前 景色 ，B 是 背景 色 ，C 是 一 些 表 示 特 殊 效 末 的 
代码 ， 如 下 划 线 、 闪 烁 等 。 


具体 到 我 们 这 个 例子 ， 其 中 31 表 示 红 色 ， 因 此 ,“ 用 刀 名 @vita” 将 
以 红色 显示 ; 35 表 示 洋 红 ， 因 此 工作 路 答 将 以 洋红 色 普 示 。 最 后 ， 在 所 
示 符 结束 的 位 置 ， 我 们 通过 'e[0m" 将 颜色 值 设 定 为 零 ， 也 就 是 通知 终端 
将 前 景 、 背 景 重 置 为 它们 的 默认 值 ， 以 使 后 续 的 文字 以 非 彩色 显示 。 


接 下 来 将 $SYSROOT 目 录 整 个 复制 到 虚拟 机 ， 因 为 命令 scp 会 跟随 
符号 链接 ， 上 所 以 我 们 采用 先 压 缩 、 再 复制 的 办 法 ， 相 关 命 令 如 下 : 


vita@baisheng:/vita/sysroots tar zcvf ../sysroot.tgz * 
vita@baisheng:/vita/sysroots$ scp ../sysroot .tgz \ 
Toct@lsz. Lon,. so. 101 FroGty 


在 虚拟 机 上 执行 如 下 命令 解压 根 文件 系统 : 


root@baisheng-vb:/vita# tar xvf /root/sysroot.tgz 


6.2 ”以 访 写 模式 重新 挂 载 文 件 系 统 


一 般 在 挂 载 文 件 系统 之 前 ， 将 使 用 工具 fsck 检 枉 文 件 系 统 的 一 致 
性 。 如 果 文 件 系统 中 存在 错误 ， 则 fsck 会 试图 修复 它们 ， 但 是 这 个 过 程 
要 求 文件 系统 没有 挂 载 或 以 只 读 廊 式 挂 载 。 因 此 我 们 在 GRUB 的 配 首 文 
件 grub.cfg 中 经 利 看 到 内 核 的 命令 行 参数 中 有 这 么 一 个 字 串 "ro"， 其 
是 "read only" 的 人 简写， 目的 是 告诉 内 核 或 initramfs 最 初 以 只 读 方 式 挂 载 根 
文件 系统 。 在 Linux 系 统 进入 用 户 空 间 、 使 用 工具 fsck 检查 文件 系统 后 ， 
然后 册 以 读 与 方式 重新 挂 载 根 文件 系统 。 这 里 我 们 忽略 文件 系统 检查 这 
一 过 程 ， 百 接 以 读 写 模式 重新 挂 载 根 文件 系统 。 


/vita/sysroot/sbin/init: 


#!/bin/bash 
mount -o remount,rw /dev/sda2 |/ 


export HOME=/root 
exec /bin/bash -1 


如 末 谈 者 没有 更 改 根 文件 系统 中 文件 的 属 主 和 属 组 为 root， 那 么 更 
新 Vita 系 统 的 /sbin/init 程 序 后 ， 重 局 系统 ， 我 们 来 检查 一 下 根 文 件 系统 旦 
售 以 读 与 方式 成 功 挂 载 了 。 以 笔 痢 的 vita 系 统 为 例 ， 如 图 6-1 所 示 。 


11.10 [正在 运行 ] -Oracle VM VirtualB ox 
ExT4-—fs (sda2)}: recovery complete 
ExT4-—fs (sdac}: mounted filesystem with ordered data mode. Opts: (null) 
tsc: Refined TC clocksource calibration: z386.236 MHz 
SsWitching to clocksource tsc 
: only root can use "—-—-options” option teffective UID is i10013 
: cannot set terminal process group (1): lnappropriate ioctl]l for device 
有 : no ,job control im this shell 
rooteyvita :et# 
root@wvita :.# Cat AprocAmounts 
rootfs 2 rootfs rw 
udew dew deutmpfs rw,relatime ,mode=0755 总 站 
iproc Aproc proc ry,relatime QO 0 
usfs -SUSs syUsfs rwrelatime OO oO 
ramfs Arun ramfs rwrelatime Qo 
-deusdaz / ext4 ro,relatime, data=ordered Oo 
mootevita:.# 
rootB@wvita:# touch x 
touch: cannot touch ’x’: Read-only file system 
rootewita:.# 
rootevita:; "# mount 一 D remount ,rw dewsdae 7 
mount: only root can use "~--options” option (teffective UID is i1001) 
IrootB@uita:.t 
IrootBvita:A# ls -1 bin/mount 
-rwsr-xr-x 1 1001 i001 i103045 Jan < 上 3 O03:17 /bin-mount 
rootBwvita:rt# 


| 四 上 四 自 烛 | 全 图 二 cl | 


























图 6-1 重新 挂 载 文 件 系 统 失败 


使 用 cat 命 令 查 看 "/proc/mounts"， 发 现 根 文件 系统 依然 是 以 只 读 方 
式 挂 载 的 。 使 用 命令 touch 试 图 尝试 创建 一 个 文件 ， 创 建 也 以 失败 告 
终 ， 再 次 证 明 根 文件 系统 确实 是 以 只 读 方式 挂 载 的 。 我 们 手动 再 次 尝试 
以 读 与 方式 重新 挂 载 根 文件 系统 ， 还 是 失败 了 ， 但 是 我 们 看 到 mount 命 
令 提 示 了 一 个 非常 有 用 的 信息 : effective UID is 1001。 看 上 去 似乎 是 权 
限 出 了 问题 。mount 命 令 只 人 允许 以 root 的 身份 进行 挂 载 操作 ， 所 以 EUID 
应 该 是 0 才 对 ， 但 是 这 里 的 EUID 却 是 1001， 这 个 1001 是 哪 来 的 呢 ? 


在 安装 时 ， 安 装 脚 本 设置 了 工具 mount 和 和 umount 办 SUID， 相 天 脚本 
如 下 : 


Util-linux-2.22/Makefile 
install-exec-hook-mount: 


chmod 4755 S$ (DESTDIR})S (bindir) /mount 
chmod 4755 S$ (DESTDIR)S (bindir) /umount 


使 用 ls 命令 但 看 这 两 个 文件 的 信息 可 见 ，SUID 确 实 倍 设置 了 了 : 


vita@balisheng:/vita/sysroot/bins ls -1 *mount 
-WSI-XI-X 1 Vita vita 103045 Jan 29 17:17 mount 
-TWSIT-Xr-X 1 Vita Vvita 40612 Jan 29 17:17 umount 


因此 ， 虽 然 进程 1 的 EUID 是 超级 用 户 root， 但 是 一 旦 执行 mount 命令 
时 ， 其 EUID 将 降 为 vita 用 户 的 UID， 而 在 笔者 的 宿主 系统 上 ，vita 的 UID 
正 是 1001， 这 就 是 上 面 "effective UID is 1001" 的 来 源 。 而 mount 命 令 是 要 
求 以 超级 用 户 root 运 行 的 ， 但 是 此 时 进程 1 被 降级 为 1001，mount 命 令 自 
然 拒 绝 执行 挂 载 任务 。 


因此 ， 我 们 需要 修改 mount 和 umount 的 属 主 和 属 组 为 root， 命 令 如 


root@baisheng:/vita/sysroot/bin# chown root.root mount umount 


更 改 属 主 和 属 组 会 导致 这 两 个 程序 的 SUID 也 会 被 丢弃 ， 但 是 对 我 
们 来 说 ， 这 没有 什么 问题 。 如 果 很 介意 mount 和 umount 的 SUID， 执 行 下 
面 的 命令 重新 设置 即 可 : 


root@baisheng:/vita/sysroot/bin# chmod 4755 mount umount 


读者 可 能 会 问 ， 第 4 章 在 讨论 initramfs 时 ， 也 使 用 了 mount， 那 时 为 
什么 没有 这 个 权限 问题 ? 原因 是 我 们 在 从 $SSYSROOT 复 制 到 那个 手工 搭 
建 的 基本 的 根 文 件 系 统 时 ，SUID 人 被 丢弃 了 。 很 多 有 安全 要 求 的 领域 经 
单 使 用 SUID 这 个 搁 巧 ， 比 如 管理 员 通 常会 设置 一 些 网 络 服 务 占 程序 的 
SUID， 这 样 一 旦 彼 人 人 攻破， 也 不 能 获得 超级 用 己 root 的 权限 。SUID 古 
个 比较 抽象 的 概念 ， 通 过 这 个 例子 ， 我 们 切实 体验 了 一 次 SUID。 


6.3 ”配置 内 核 文 持 网 络 


为 了 方便 和 窒 主 系统 与 目标 系统 传输 文件 ， 并 且 可 以 从 答 主 系统 登录 
到 目标 系统 ， 目 标 系 统 需 要 支持 网 络 。 为 此 ， 需 要 配置 目标 系统 的 内 核 
支持 TCP/IP 协 议和 网 卡 驱动 。 


6.3.1 ”配置 内 核 支 持 TCP/IP 协 议 


我 们 首先 配置 内 核 使 其 支持 TCP/IP 协 议 ， 步 又 如 下 : 


1) 执行 make menuconfig， 出 现 如 图 6-2 所 示 的 界面 。 


BUS options (PCI etc.) ---> 
Executable file formats / Emuylations ---> 






DewtLCe Br i 


图 6-2 配置 内 核 支 持 TCP/IP (1) 


2) 在 图 6-2 中 ， 选 择 采 单项 "Networking support"， 出 现 如 图 6-3 所 示 
的 寞 面 。 


| 目 Networking options ---> 





图 6-3 配置 内 核 支 持 TCP/IP (2) 


3) 在 图 6-3 中 ， 选 择 六 单项 "Networking options"， 出 现 如 图 6-4 所 示 
的 寞 面 。 


Cc? ] TEP/IP TEST 


贡 BP: 





图 6-4 配置 内 核 支 持 TCP/IP (3) 


4) 在 图 6-4 中 ， 选 中 "TCP/IP networking"，TCP/IP 协 议 配 置 完成 。 


6.3.2 ”配置 内 核 文 持 网 卡 


接 下 来 我 们 配 首 内 核 中 的 网 卡 驱动 。 既 然 古 为 网 卡 配 普 驱 动 ， 痛 完 
当然 需要 知道 系统 使 用 的 古 什 么 网 卡 。 那 么 我 们 如 何 奏 看 目标 系统 的 网 
卡 型 亏 呢 ? 对 于 普通 的 PC 来 说 ， 网 卡 一 般 是 连接 在 PCI 总 线 上 的 PCI 议 
备 ， 这 里 我 们 不 考虑 通过 其 他 接口 (如 USB) 转换 的 网 卡 。 既 然 是 连接 
在 PCI 总 线 上 ， 读 者 一 定 想 到 了 前 面 使 用 的 得 看 使 盘 控 制 闫 信息 的 工具 


lspci。 
在 目标 系统 上 运行 lspci， 查 看 与 以 太 网 相关 的 设备 。 傅 定 设 备 所 在 


的 PCI 总 线 上 的 位 置 后 ， 奏 看 这 个 网 卡 的 环境 变量 MODALIAS， 如 网 6-5 
所 示 。 


11.10 [正在 运行 ] - Gracle VM VirtualBox 


: no job control in this shell 
rootewv1ita: .#3 
roote@vuita:/# lspci 
:BO.0 Host bridge: Intel Corporation 41440QF» - Be441F» FHC LNatoma] (rew Oc) 
:Bi1Q Isf bridoge: Intel Corporation B23r15B Pllx3 ISh [Natoma-Triton 11] 
| 
:2.0 Uf compatible controller: InnoTek Systemberatung GmbH UirtualBox Graphi 
Ndapter 
:O30 Ethernet controller: Intel Corporation Bao4Q0EM Gigabit Ethernet Controll 
(rew 和 zc] 
:4.0 syustem peripheral: InnoTek SUustemberatung GmbH VirtualBox Guest Service 
:5.0 Multimedia audio controller: Intel Corporation 82801AA fC 97 fudio Contr 
Lrew Ol1) 
-OO UB controller: fpple Inc. keyLargo- Intrepid Us 
.OO Bridge: Intel torporation B2371AB.AEB/AMB Pllm4 ACPI (rev O98) 
-BO ATA controller: Intel Corporation BASO1HMAHEM CICHBMAICHSM-E}) SATA Cont 





rootevita: tt# 


国电 少 间 国 直 | 和牛 图 右 ctrl | 


图 6-5 查看 网 卡 控制 器 信息 


根据 命令 lspci 的 输出 可 见 ， 在 总 线 号 为 0x00 的 PCI 总 线 上 ， 设 备 号 
为 0x03 的 设备 就 是 Intel 的 型 号 为 82540EM 王 兆 以 太 网 卡 。 


根据 内 核 通 过 sys 文 件 系统 报告 的 uevent 事 件 ， 我 们 可 以 清楚 地 看 
到 ， 环 境 变 量 MODALIAS 的 值 为 : 


PCl:V00008086d0000]00Esv00008086sd000000]Ebc02sc00100 


以 设备 ID"100E" 在 内 核 的 driversmnet 目 录 下 搜索 ， 结 果 如 下 : 


vita@baisheng:/vita/build/linux-3.7.4/drivers/nets$ grep "100E" \ 
“ET 类 


ethernet/chelsio/cxgb/elmer0.h: ELMERO XC2S100E 6TQ144 C 
ethernet/intel/el1l000/e1000 main.c: 

INTEL E1000 ETHERNET DEVICE (0x100E), 
ethernet/intel/e1000/e1000 hw.h:#define E1000 DEV ID 82540EM 


Ox100E 
fddi/defxx.h:#define PI ITEM K SMT HI VERS ID Ox100E 
fddi/skfp/pmf.c: { SMT Pl00E,AC 6G, 

MOFFSS (fddisMTHiVersionId), En a 

fddi/skfp/h/smt p.h:#define SMT Pl100E 0X100e 
wireless/adm8211.c: ADM8211 CSR WRITE(MMIWA, 0x100EOCORA) ; 


根据 上 面 输出 结果 中 使 用 黑体 标识 的 部 分 可 见 ， 驱 动 el1000 声 明 对 
设备 ID 为 "100E" 的 设备 负责 。 也 就 是 说 ， 张 动 el1000 是 Intel 82540EM 干 
兆 以 太 网卡 的 驱动 。 因 此 ， 我 们 需要 配置 内 核 支持 e1000 了 驱动 ， 配 置 步 
又 如 下 : 


1) 执行 make menuconfig， 出 现 如 图 6-6 所 示 的 界面 。 


Executable file formats / Emulations ---> 
Networking support ---> 

Device Drivers ---> 

Firmware Drivers ---»> 





图 6-6 配置 内 核 支 持 网 卡 驱动 (1) 


2) 在 图 6-6 中 ， 选 择 荣 单项 "Device Drivers"， 出 现 如 图 6-7 所 示 的 界 
面 。 


N twork device support. se 


Ee 
a i = 





图 6-7 配置 内 核 支 持 网 卡 驱动 (2) 


3) 在 图 6-7 中 ， 选 中 六 蛙 项 "Network device support"， 出 现 如 图 6-8 
所 示 的 界面 。 


tnet cluer subport QE) a 


ee ee i 
| | 
Ee 可， 





图 6-8 配置 内 核 支持 网 卡 驱动 (3) 


4) 在 图 6-8 中 ， 选 中 荣 单 项 "Ethernet driver support"， 出 现 如 图 6-9 
所 示 的 界面 。 





图 6-9 配置 内 核 支 持 网 卡 驱动 〈4) 


5) 在 图 6-9 中 ， 将 "Intel(R)PRO/1000 Gigabit Ethernet support" 配 置 为 
模块 ， 网 卡 驱动 配置 完成 。 


重 靳 编 详 内 核 和 模块 ， 并 将 内 核 映像 以 及 内 核 模块 安 阀 
到 /vita/sysroot 目 录 下 。 


6.4 局 动 udev 


前 面 我 们 将 网 卡 驱动 编译 为 模块 ， 为 了 目 动 加 载 网 卡 驱 动 ， 需 要 局 
动 udev， 为 此 需要 修改 init 脚 本 : 


/vita/sysroot/sbin/init: 


#!/bin/bash 
mount -oOo remount,rw /dev/sda2 / 


udevd --daemon 
udevadm trigger --action=add 
udevadm settle 


exXport HOME=/root 
exec /bin/bash -1 


这 几 条 命令 我 们 在 讨论 initramfs 时 已 经 见 过 了 。 事 实 上 ， 这 里 局 动 
udev 服 务 ， 不 仪 是 为 了 加 载 网 卡 驱动 模块 。initramfs 中 往往 只 包含 存储 
介质 相关 的 驱动 ， 而 其 他 大 量 设备 的 驱动 ， 大 部 分 还 十 你 存在 根 文件 系 
统 中 ， 所 以 ， 在 挂 载 了 根 文件 系统 后 ， 需 要 重新 借 拟 一 通 热 皇 拔 ， 从 根 
文件 系统 中 加 载 相关 设备 的 驱动 模块 。 


6.5 安装 网 络 配置 工具 并 配置 网 络 


在 用 户 空间 中 ， 我 们 使 用 工具 ip 来 配置 网 络 ， 工 具 ip 包 含 在 软件 包 
iproute2 中 。 上 所 以 我 们 首先 来 编 详 安 痛 软件 包 iproute2。 


vita@baisheng:/vita/builds tar \ 
XVE ../source/iproute2-3.8.0,tar.xz 


iproute 中 包含 很 多 网 络 管理 工具 ， 但 是 其 中 一 些 工具 我 们 构建 的 
vita 系 统 并 不 需要 。 而 编译 这 些 不 必要 的 工具 还 需要 引入 一 些 额 外 的 库 
或 者 工具 ， 比 如 网 络 流量 控制 工具 和 套 接 字 统计 工具 要 求 系统 安装 工具 
bison。 因 上 此， 我们 只 安 骤 和 网 络 配置 相关 的 工具 。 为 此 ， 在 iproute2 的 
顶层 目录 下 的 Makefile 中 ， 将 下 面 的 编译 目标 : 


SUBDIRS=11ib ip tc bridge mlLSc netem genl man 
修改 为 : 
SUBDIRS=11bD iP 
执行 如 下 命令 编译 安装 : 
vita@baisheng:/vita/Abuild/iproute2-3.8.08 make install 


为 了 验证 我 们 的 网 络 征 个 配置 正确 ， 我 们 安 逆 ping 工 具 ， 访 工具 在 


软件 包 iputils 中 。 


vita@baisheng:/vita/builds 七 ar NA\ 
xXvE ../source/iputils-s20121221 .tar .bz2 


我 们 只 编译 IPv4 的 ping 工 具 ， 在 iputils 的 顶层 目录 下 的 Makefile 中 ， 
将 下 面 的 编译 目标 : 


IPV4 TARGETS=tracepath ping clockdiff rdisc arping tftpd rarpd 
IPV6 TARGETS=tracepathé tracerouteé pingé 
TARGETS=5 (IPV4 TARGETS) $$ (IPV6 TARGETS) 


修改 为 : 


IPV4 TARGETS=p1ing 
IPV6 TARGETS=tracepathé tracerouteé pingé 
TARGETS=5 (IPV4A4 TARGETS) 


我 们 构建 的 vita 系 统 中 目前 没有 安装 Capability 相 关 的 库 ， 因 此 我 们 
去 挥 ping 对 库 Capability 的 依赖 ， 我 们 也 不 需要 ping 的 这 个 特性 。 因 此 ， 
在 iputils 的 项 层 目 录 下 的 Makefile 中 ， 将 下 面 的 变量 : 


USE CAP=yes 


修改 为 : 


USE CAP=no 


执行 如 下 命令 编译 安装 : 


vita@baisheng:/vita/build/iputils-s20121221$ make 
Vita@balilsheng:/vita/build/iputils-s20121221$ cp ping \ 
/vita/sysroot/bin/ 


更 新 vita 系 统 的 根 文 件 系 统 并 重新 局 动 ， 然 后 使 用 如 下 命令 三 看 网 
络 接口 : 


1P link show 


如 来 网 卡 被 正确 驱动 了 ， 那 么 应 该 可 以 看 到 网 络 接口 。 笔 者 机 侣 的 
网 络 接 口 为 eth0， 因 此 在 后 面 的 命令 中 使 用 的 是 eth0， 读 者 可 能 需要 根 
扼 目 己 的 具体 情况 调整 。 一 般 而 言 ， 第 一 其 有 线 网 卡 接口 都 为 eth0。 


在 配置 网 络 前 ， 如 果 了 网 络 接口 的 状态 是 "down"， 那 么 首先 使 用 如 下 
命令 将 网 络 接口 状态 设置 为 "up": 


1p LIDK set etho up 
然后 使 用 如 下 命令 设置 网 卡 的 IP 地 址 : 
ip addr add 192.168.56.2/24 dev etho 


具体 的 IP 地 址 需要 根据 读者 目 己 的 实际 情况 调整 ， 忌 之 ， 需 要 和 箱 
于 条 人 多 什 一 人 网 全 二。 


设置 了 IP 地 址 后 ， 工 具 ip 目 动 增 加 了 跤 由， 可 以 使 用 如 下 命令 查 
看 : 


ip route show 


图 6-10 是 在 笔者 构建 的 vita 系 统 上 配置 网 络 的 过 程 。 


11.10 [正在 运行 ] - Oracle VM VirtualBox 


QO00:00:03.9 etheQ: InteltR} PFRO-1OQQO Network Connection 
: Cannot set terminal process group (1); Inappropriate ioctl for device 
: no job control in this shell 
moontewuita: .tH 


lo: LOOPFBACK> mtu 353536 gdisc noop state DOWN mode DEFAULT 
link.loopbhback O00:00:00:00:00:00 brd 00:00:00:00:00:00 
: EthO: <BROADGCAST,MULTICASTY mtu cg oqdisc noop state DOWN mode DEFAULT qlen 
19900 
link-ether OB:00:27:bO:04:4Af brd ff :ff:FF :FE:fFF:FE 


O00tBwita: #3 
Oot@wita:/Ht iD link set ethe up 


让 站 日 : ethO NIC Link is Up i000 Mbps Full Duplex, Flow Control: Rx 
OD0tBwvita: “并 
oD0te@vyita:/H ip addr add i132.168.56 .2/24 dev etho 
Dotewita: .tH 
route show 

. 168.56 .0.24 dev eth@ proto kernel scope link src 1932.166.56.2 
rontewita: .tH 
rootewita:-# ping i192.,168.06.,1 
或 让 1 
4 butes from 192.1698.56.1: icmp seoy=1 tt1l=b4 time=4.43 ms 
i Ws i 1 icmp_ sedg=cz 二 古 1=bd4 七 Ime=T ,rd ms 
4 butes from 1932.160.56.1: icmp_seg=3 tt1=64 time=Q. A223 ms 


| SPEQ|OTcn | 





图 6-10 网 络 配置 过 程 
配置 完成 后 ， 可 以 使 用 命令 ping 确 认 网 络 是 否 已 经 成 功 配 置 。 


最 后 ， 为 了 不 必 每 次 重启 系统 后 都 手动 重复 执行 这 些 网 络 配置 命 
令 ， 我 们 将 其 添加 到 init 中 : 


/vita/sysroot/sbin/init: 


#!/bin/bash 
mount -oo remount,rw /dev/sda2 / 


udevd --daemon 
udevadm trigger --action=add 
udevadm settle 


ip link set eth0O up 
ip addr add 192.168.56.2/24 dev eth0 


export HOME=/root 
exec /bin/bash -1 


6.6” 安 痛 并 配置 ssh 服 务 


既然 网 络 己 经 配置 好 了 ， 


虚拟 机 ) 更 新 vita 系 统 了 ， 可 以 直接 通 ] 
如 条 是 更 新 内 核 、initramfs 或 者 整个 文件 系统 ， 还 是 要 通过 虚拟 机 系统 
的 。 我 们 在 和 窒 主 系统 和 vita 系 统 之 间 使 用 ssh 服 务 进行 通信 。 因 此 在 这 一 
万， 我 们 为 vita 系 统 安 痛 并 配置 ssh 服 务 。 


一 般 情 况 下 惑 不 必 再 通过 第 三 方 系统 《〈 即 


过 网 络 和 vita 系 统 打 区 道 了 。 当 然 


我 们 使 用 ssh 协 议 的 开源 实现 openssh， 其 依赖 zlib 和 openssl， 因 此 首 
先 编译 安装 这 两 个 软件 包 。 


使 用 如 下 命令 编译 安装 zlib: 


vita@baisheng: 


vita@baisheng 
vita@baisheng 
vita@baisheng 


vearbDullds tar RvE ; 
-Jvita/bulilld/zlibD=1 2 
vitarbulldy/zl1ib=L2 
-~ vitarbul ldrzlis1 
vita@baisheng: 2 


vitarbDulld/ sliD.=.E, 


"*.]a'" -exec rm -f '{}' \; 


使 用 如 下 命令 编译 安 狼 openssl: 


-BouUrce/r2zlib-s1.2.7. tar Bz2 
7$ ./configure --prefix=/usr 


.7S make 


75 make install 


.79 find SSYSROOT -name \ 


vita@baisheng:/vita/builds tar xvf \ 
../SsSource/openssl-1.0.le.tar.gz 
vita@baisheng:/vita/build/openssl-1.0.1les ./config --prefix=/usr 
--openssldir=/etc/ssl 
vita@baisheng:/vita/build/openssl-1.0.1les make 
vita@baisheng:/vita/build/openssl-1.0.1les make install \ 
MANDIR=/usr/share/man INSTALL PREFIX=$SYSROOT 
vita@baisheng:/vita/build/openssl-1.0.1les find $SYSROOT -name \ 
rw la" -exec rm =£ "I}" Ns 


openssh 的 依赖 已 经 安 儿 完成， 下 面 安 装 openssh， 命 令 如 下 : 


vita@baisheng:/vita/builds tar xvf ../source/openssh-6.1pl1.tar.gz 
vita@baisheng:/vita/build/openssh-6.1p1l$ \ 
LD=i686-none-linux-gnu-gcc ./configure \ 
--prefix=/usr --sysconfdir=/etc/ssh \ 
--Wwithout-openssl-header-check 
vita@baisheng:/vita/build/openssh-6.1pl1$ make install \ 
DESTDIR=SSYSROOT 


在 openssh 的 编译 脚本 中 ， 调 用 链接 器 时 传递 了 参数 -fstack- 
protector-all 。 链 接 需 不 允许 链接 可 执行 文件 时 使 用 以 "-f 开头 的 参数 ， 
以 "-f 开 头 的 参数 只 能 用 于 链接 动态 库 。 解 决 这 个 问题 的 方法 之 一 惑 是 
避 倪 直接 调用 链接 器 进行 链接 ， 而 是 通过 gcc 则 接 调 用 链接 器 。 这 就 是 
在 配置 openssh 时 设 定 LD=i686-none-linux-gnu-gcc， 禾 盖 系 统 环境 变量 中 
定义 的 LD=i686-none-linux-gnu-ldd 的 目的 。 


读者 可 能 会 有 个 疑问 : 在 宿主 系统 上 编译 openssh 时 并 不 会 遇 到 类 
似 问题 啊 ! 那 是 因为 在 非 交 叉 编 译 环 境 下 ， 一 般 系 统 环境 变量 中 不 会 定 
义 LD， 而 如 有 果 环 境 变 量 中 没有 定义 ， 那 么 openssh 的 编译 脚本 则 将 LD 害 
义 为 编译 器 ， 从 而 绕 过 了 这 个 问题 ， 脚 本 如 下 : 


openssh-6.1pl/configure .ac: 


Te Ces es "HED 3 Els 
LD=SCC 
fi 


当然 恋 者 不 必 纠 结 这 个 问题 ， 这 仅 是 openssh 在 交叉 编译 环境 中 的 
一 个 小 插曲 而 已 。 和 安装 完 ssh 后 ， 下 面 我 们 开始 配置 ssh 服 务 。 


openssh 文 持 一 种 安全 机 制 ， 称 为 特权 分 离 (Privilege 
Separation) ， 这 个 机 制 是 献 认 开 局 的 。 但 是 这 个 机 制 要 求 一 些 附加 操 
作 ， 比 如 建立 非特 权 用 户 等 。 为 简 蛙 起 见 ， 我 们 关 挥 了 这 个 机 制 。 


为 了 方便 ，vita 系 统 人 允许 ssh 服 务 使 用 root 用 户 登 录 。 同 样 为 了 方 
人 便 ， 笔 者 将 vita 系 统 的 root 密 但 设置 为 宇 ， 因 此 也 需要 配置 sh 服务 人 允许 
登录 用 户 蜜 但 为 空 。 


最 终 ，ssh 服 务 的 配置 文件 sshd_config 中 的 相关 变量 按照 如 下 进行 修 
改 : 
/vita/sysroot/etc/ssh/sshd contfig: 
UsePrivilegeSeparatlion no 


PermitRootLoOg1in yes 
PermitEmptyPasswords yes 


除了 配置 ssh 服 务 外 ， 根 据 ssh 协 议 2.0 的 要 求 ， 还 需要 为 ssh 服 务 创建 
dsa、frsa 和 ecdsa 三 种 类 型 的 密 钥 。 而 创建 密 钥 需要 一 些 账 户 信 息 ， 
此 ， 我 们 首先 要 为 vita 系 统 添加 账户 信息 。 


用 尸 信息 保存 在 文件 /etc/passwd 中 ， 格 式 为 : 


name :password:uid:gid:comment:home:shell 


其 中 ，name 古 用 户 名 ; password 是 用 尸 密 人 码 ; uid 十 用 户 ID; gid 是 
用 尸 所属 的 组 ; comment 保 和 存 如 用 户 的 真实 姓名 等 一 些 信息 ; home 是 用 
户 的 属 主 目录 ; shell 是 用 户 登 录 后 执行 的 命令 。 


组 信息 保存 在 文件 /etc/group 中 ， 格 式 为 : 


group name:password:gid:user list 


其 中 ，group_name 是 组 名 ; password 是 组 的 密码 ; gid 是 组 ID; 
user_list 部 分 记录 属于 该 组 的 所有 用 户 〈 用 户 之 间 使 用 逗 写 分 隅 ) 。 


我 们 在 vita 系 统 上 创建 的 的 具体 的 passwd 和 group 文 件 分 别 如 下 : 


/vita/sysroot/etc/passwad: 
root::0:0:: /root: /bin/bash 


/vita/sysroot/etc/group: 
TOOt: :0: 


一 切 准 备 束 绪 后 ， 更 新 vita 的 文件 系统 。 晶 局 后 ， 在 vita 系 统 上 使 用 
命令 ssh-keygen 创 建 密 钥 ， 这 个 工具 也 是 软件 包 openssh 提 供 的 。 


在 默认 情况 下 ，dsa、rsa 和 ecdsa 分 别 存储 在 文 
件 /etc/ssh/ssh_host_dsa_key、 /etc/ssh/ssh_host_Tsa_key 以 
及 /etc/ssh/ssh_host_ecdsa_key 中 ， 当 然 也 可 以 在 ssh 服 务 的 配置 文件 


sshd_config 中 修改 这 些 默认 的 设置 。 创 建 密 钥 的 命令 分 别 如 下 : 


ssh-keygen -t dsa - /etc/ssh/ssh host dsa key 
ssh-keygen -t rsa -f /etc/ssh/ssh host rsa Key 
ssh-keygen -t ecdsa -上 /etc/ssh/ssh host ecdsa key 


当 ssh-keygen 提 示 输 入 "passphrase" 时 ， 了 直接 按 回 车 即 可 。 图 6-11 是 
在 笔 者 构建 的 vita 系 统 上 创建 dsa 窗 钥 的 过 程 : 


11.10 [正在 运行 ] - Gracle VM VirtualB ox 


e109 O0000:00:03.0 ethoQ: InteltRh) PRO-190Q090 Network Connection 
hash: cannot set terminal process group ( -1): Inappropriate ioctl for device 
hbash: no job control in this shell 
ronptewvita:.#i 
root@vita:-t ssh-keygen 一 七 dsa -ft “etc ssh/ssh host dsa_key 
Generatinyg public/ private dsa key pair. 
Enter passphrase tempty for no passphrasec}.: 
Enter saAme passphrase again : 
[our identif ication has been saved in etc-/ssh/ssh host dsa key. 
rour public key has been saved in retc-ssh-ssh_host dsa_key.pub. 
The key fingerprint is: 
‘dd:34:5b :rf :ro:fe:393:1d:61:13:b6:1d:r8:50 roote (none)} 
rhe keU ss randomart image is: 
+——[ D3A 19024]1————+ 
| .+Eo! 
.DO=1 
0 00. 
和 
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图 6-11 创建 dsa 密 角 


其 他 两 个 密 钥 rsa 和 ecdsa 按 照 dsa 的 创建 如 法 炮制 即 可 。 


密 钥 创建 一 次 即 永久 保存 在 文件 系统 了 ， 如 末 删 除 了 vita 系 统 的 根 


文件 系统 ， 需 要 再 次 重新 创建 这 几 个 密 铀 。 


从 牡 主 系统 远程 登录 vita 系 统 时 ，vita 系 统 需要 为 登录 的 用 户 分 配 念 
终 闻 (PTY) ， 而 伪 终 病 设 备 节 点 建 并 在 /dev/pts 目 录 下 ， 并 有 /dev/pts 
要 求 挂 载 devpts 文 件 系 统 。 如 果 没 有 挂 载 devpts, 登 杂 将 失败 ， 报 错 信 息 
类 似 如 下 : 


PTY allocation regquest failed on channel 0 


为 此 ， 修 改 init 程 序 ， 挂 载 devpts， 方 法 如 下 : 


/vita/svsroot/sbin/init: 


#!/bin/bash 
mount -oOo remount ,rw /dev/sda2 / 


udevd --daemon 
udevadm trigger --actlion=add 
udevadm settle 


1p 1ink set etho up 
ip addr add 192.168.56.2/24 dev ethno 


mkdir /dev/pts 
mount -了 -t devpts devpts /dev/pts 


export HOME=/Yroot 
exec /bin/bash -1 


/vita/svsroot/sbin/init: 


#!1/bin/bash 
mount -o remount,rw /dev/sda2 / 


Udevd --daemon 
udevadm trigger --action=add 
udevadm settle 


1IP link set etho up 
ip addr add 192.168.56.2/24 dev etho 


mkdir /dev/pts 
mount -n -t devpts devpts /dev/pts 


/usr/sbin/sshd 


export HOME=/root 
exec /bin/bash -1 


更 狐 vita 系 统 的 init 程 序 ， 章 局 后 ， 就 可 以 顺利 地 从 和 窒 主 系统 登录 到 
vita 系 统 了 。 一 旦 可 以 远程 登录 到 vita， 工 作 的 效率 就 会 大 大 提高 ， 我 们 
可 以 使 用 宿主 系统 的 强大 的 终端 。 而 且 ， 更 重要 的 一 点 是 ， 除 非 对 根 文 
件 系 统 进行 彻 感 的 更 新 ， 或 者 更 新 内 核 ， 否 则 不 再 需要 频 演 地 重 局 系 
统 。 


6.7” 安 北 procps 


为 了 方便 后 面 调试 ， 我 们 在 vita 系 统 上 安装 procps。 访 软件 包 中 包谷 
了 名 用 的 一 些 工 具 ， 如 ps、kill 等 。 因 为 vita 系 统 中 没有 安装 ncurses 库 ， 
为 简单 起 见 ， 我 们 只 编译 不 需要 使 用 ncurses 库 绘制 界面 的 程序 ， 这 就 是 
编 详 procps 时 传递 参数 "--without-ncurses" 的 目的 。 


vita@baisheng:/vita/builds 七 ar \ 


xvf ../source/procps-ng-3.3.6.tar.xz 
vita@baisheng:/vita/build/procps-ng-3.3.6$ ./configure  、 
--prefix=/ --without-ncurses 


vita@baisheng:/vita/build/procps-ng-3.3.6$8 make 
vita@baisheng:/vita/build/procps-ng-3.3.6$ make install 


6.8 ”安装 久 窗 口 系统 


UNIX 系 统 的 主要 目标 不是 多 用 户 、 多 任务 ， 而 且 人 允许 多 个 用 户 远 
程 登 录 并 发 执行 任务 。 这 种 设计 哲学 同样 被 带 到 了 X 窗 口 系统 中 。X 的 
实现 者 将 X 设 计 为 客户 /服务 器 的 架构 ， 应 用 程序 相当 于 客户 端 ， 它 们 不 
需要 关心 具体 的 显示 和 用 户 输入 ， 而 由 X 服 务 器 负 贡 省 理 显 示 设 备 和 输 
入 设备 。 应 用 程序 只 需要 将 请 求 ， 比 如 “绘制 一 条 直线 从 点 A 到 点 B”， 
发 送 给 服务 器 ， 而 由 X 服 务 器 负责 将 其 绘制 到 具体 的 显示 设备 上 。X 服 
务 器 也 会 将 用 户 的 输入 (包括 鼠标 、 键 盘 等 输入 事件 ) ， 转 发 给 对 应 的 
应 用 。 


Xx 将 协议 相关 实现 封装 到 了 一 个 库 中 ， 开 发 者 将 这 个 库 称 为 Xlib。 
后 来 因为 效率 问题 ， 又 开发 了 xcb 来 蔡 代 XIlib。Xlib 中 封装 的 只 是 又 的 核 
心 协 议 ，X 使 用 扩展 的 方式 扩充 X 协 议 ， 其 他 扩展 协议 可 以 在 单独 的 库 
中 实现 。 


作为 类 UNIX 的 图 形 系统 的 基础 ，X 的 复杂 是 难以 避免 的 。 也 恰恰 
是 因为 X 的 复杂 ， 很 多 人 提 及 X 的 安 儿 了 驶 会 谈 席 色 变 。 虽 然 X 系 统 非 冲 庞 
大 ， 实 际 上 和 也 是 有 章 可 循 的 。 本 布 笔者 承 市 领 读 者 从 头 安装 一 个 X 窗 
口 系统 。 鉴 于 X 的 安装 过 程 比 较 烦 琐 和 复杂 ， 我 们 提供 了 一 个 安装 脚本 
build-X11.sh。 但 是 笔者 建议 谈 者 尽量 使 用 手动 的 方式 安装 ， 这 样 可 以 
在 思考 和 解决 问题 中 不 断 提 高 。 遇 到 上 自己 实在 解决 不 了 的 问题 时 再 参考 


这 个 脚本 ， 从 而 达到 更 好 的 学 习 效果 。 
6.8.1 安装 M4 宏 定义 


X 定 义 了 一 些 公 用 的 M4 宏 ， 并 将 它们 了 放 在 软件 包 util-macros 中 。X 
的 各 个 组 件 的 配置 脚本 中 将 使 用 M4 宏 ， 因 此 我 们 首先 来 安装 M4 宏 ， 方 
法 如 下 : 
vita@balsheng:/vita/builds tar xvf  、\ 
.. /SOUrce/X7T .7T/util-macros-1.17.,tar.bz2 
vita@baisheng:/vita/build/util-macros-1.17$ ./configure 、 


- -prefix=/usr 
vita@balsheng:/vita/build/util-macros-1.17s make install 


在 第 7 章 讨 论 窗 口 管理 天 的 构建 脚本 时 ， 我 们 介绍 了 M4 安 ， 旋 者 可 
以 参考 那里 的 讨论 。 


6.8.2” 安 痛 X 协 议和 扩展 


X 包 舍 了 多 种 了 共 议 和 扩展 ， 为 简单 起 匈 ，Vita 系 统 不 必 全 部 安 猴 
比如 禁 掉 了 记录 事件 的 扩展 Record， 支 持 扩展 屏幕 的 协议 Xinerama 及 用 
于 屏保 的 Screensaver， 禁 掉 了 已 经 过 时 的 DRI1 等 。 下 面 是 vita 系 统 安装 
的 协议 ， 安 竣 这 些 协 议 时 没有 先后 顺序 要 求 。 如 采 不 要 求 双 服务 硕 文 持 
DRI2， 那 么 可 以 安装 更 少 的 协议 ， 比 如 去 掉 glproto、dri2proto、 


damageproto 等 。 
(1) 核心 协议 


Xlib 中 的 绝 大 部 分 编程 接口 ， 如 XCreateWindow、XMapWindow、 
XDrawRectange、XCopyArea 等 都 是 由 X 核 心 协议 定义 的 。 核 心 协 议 的 
定义 在 软件 包 xproto 中 。 


(2) 基本 扩展 


X 的 基本 扩展 包括 : DOUBLE-BUFFER (DBE) 、DPMS、 
Extended-Visual-Information (EVI) 、Generic Event Extension、LBX、 
MIT-SHM、 MIT-SUNDRY-NONSTANDARD、 Multi-Buffering、 
SECURITY、 SHAPE SYNC、~ TOG-CUP、 XC-APPGROUP、 XTEST, 
它们 的 定义 在 软件 包 xextproto 中 。 


(3) 键盘 扩展 


键盘 扩展 定义 了 键盘 的 模型 、 布 局 ， 如 对 于 不 同 的 键盘 模型 ， 示 个 
键 信 对 应 的 字符 。 键 盘 扩 展 的 定义 和 在 软件 包 kbproto 中 。 


(4) 输入 扩展 


得 入 扩展 旦 为 一 些 特殊 的 输入 设备 定义 的 协议 。 通 过 这 个 扩展 ， 输 
入 设备 可 以 模拟 出 与 鼠标 、 键 盘 等 核心 输入 设备 相同 格 却 的 事件 。 得 入 
扩展 的 定义 在 软件 包 inputproto 中 。 


(5) XCB 协 议 


鉴于 Xlib 的 效 紊 ， 开 友 者 们 开 友 了 更 局 效 的 XCB 来 叔 代 Xlib。XCB 
协议 是 用 于 这 个 库 的 协议 ， 其 以 XML 形式 定义 ， 并 提供 python 程 序 将 这 
些 XML 质 述 文件 转换 为 相应 的 程序 代码 。XCB 协 议 的 定义 在 软件 包 Xcb- 
proto 中 。 


(6) GLX 扩 展 


GLX 扩 展 定义 了 OpenGL 和 X 之 间 通 信 的 协议 。 访 扩展 的 定义 在 软 
件 包 glxproto 中 。 


(7) DRI2 扩 展 


DRI2 扩 展 是 DRI 的 第 2 个 版 本 ， 定 义 了 应 用 不 通过 X 服 务 右 直接 使 用 


便 件 进行 泻 染 的 协议 。DRI2 扩 展 的 定义 在 软件 包 dri2proto 中 。 
(8) XFixes 扩 展 


从 这 个 扩展 的 名 字 也 可 以 看 出 ， 这 个 扩展 其 实 是 为 解决 X 核 心 协议 
存在 的 各 种 限制 的 。 该 扩展 的 定义 在 软件 包 fixesproto 中 。 


(9) Damage 扩 展 


Damage 扩 展 是 X 服 务 器 用 来 记录 那些 离 屏 的 、 友 生 了 变化 的 绘制 区 
域 的 协议 。Damage 扩 展 的 定义 在 软件 包 damageproto 中 。 


(10) XC-MISC 扩 展 


应 用 可 以 通过 XC-MISC 扩 展 获 取 X 服 务 占 可 用 的 资源 D， 如 
GetXIDRange、GetXIDList 等 。 访 扩展 的 定义 在 软件 包 xcmiscproto 中 。 


(11) BIG-REQUESTS 扩 展 


BIG-REQUESTS 扩 展 提供 了 对 大 于 262140 字 节 的 请 求 的 支持 。 该 扩 
展 的 定义 在 软件 包 bigreqsproto 中 。 


(12) RANDR 扩 展 


RANDR 扩 展 定 义 了 了 动态 调整 屏 右 尺寸 、 旋 转 屏 货 以 及 锐 像 屏 磺 的 
协议 。X 提 供 的 工具 xrandr 束 是 这 个 协议 的 一 个 典型 使 用 者 。 该 扩展 的 


定义 在 软件 包 randrproto 中 。 
(13) RENDER 扩 展 


RENDER 扩 展 是 X 使 用 的 较 新 的 泻 染 模型 ， 用 于 合成 多 个 绘制 区 
域 ， 相 对 于 诛 始 的 通过 复制 进行 合成 的 模型 其 更 有 效率 。 充 扩展 的 定义 
在 软件 包 renderproto 中 。 


(14) 字体 扩展 


字体 扩展 定义 了 XX 中 与 字体 人 处理 相 关 的 协议 。 了 字体 扩展 的 定义 在 软 
件 包 fontsproto 中 。 


(15) 视频 扩展 
视频 扩展 定义 了 X 的 视频 输出 相关 的 协议 。 该 扩展 的 定义 在 软件 包 
videoproto 中 。 
(16) 复合 扩展 


复合 扩展 是 为 了 X 文 持 窗 口 特效 设计 的 扩展 。 在 没有 这 个 扩展 之 
前 ， 所 有 的 在 窗口 上 的 绘制 担 作 都 “实时 ? 旺 示 在 屏 医 上。 而 复合 扩展 允 
许 窗 口 可 以 先 在 离 屏 的 区 域 进 行 绘制 。 复 合 扩 展 的 定义 在 软件 包 


compositeproto 中 。 


(17) 资源 扩展 


资源 扩展 定义 了 应 用 程序 租 询 X 服 务 基 各 种 资源 使 用 情况 的 协议 。 
该 扩展 的 定义 在 软件 包 resourceproto 中 。 


(18) 下 接 图 形 访 问 扩展 


顾名思义 ， 和 直接 图 形 访 问 扩 展 也 是 为 了 和 直接 访问 图 形 便 件 设 计 的 协 
议 ， 不 过 其 功能 非 意 大限 ， 目 前 基本 已 经 集 止 开 友 ， 但 vesa 驱 动 还 在 使 
用 这 个 扩展 。 访 扩展 的 定义 在 软件 包 xf86dgaproto 中 。 


这 些 协议 的 配置 安装 都 非常 答 单 ， 而 且 安 装 命 令 完 全 相同 。 以 
xproto 为 例 ， 安 装 命令 如 下 : 


vita@balsheng:/vita/builds 七 ar xvf \ 
,BOUrce/X7T .7/xXproto=7,0.23,.tar., bz2 
vita@balisheng:/vita/build/xproto-7.0.238 ./configure 
- -prefix=/usr 
vita@baisheng:/vita/build/xproto-7.0.23$ make install 


6.8.3 ”安装 又 相关 库 和 工具 


在 安 闭 XX 服务 颖 前 ， 我 们 需要 安 铸 X 服 务 右 依赖 的 库 、 这 些 库 依赖 
的 库 以 及 X 服 务 器 使 用 的 工具 和 相关 数据 。 注 意 ， 茶 些 库 是 有 安 冯 顺序 
要 求 的 ， 比 如 ，1libX11 需 要 在 libxkbfile 前 安装 ， 安 装 libXfont 前 需要 先 安 
装 freetype，1libdrm、expat 需 要 在 Mesa 前 安装 等 。 读 者 按照 下 面 的 顺序 


安装 上] 可 O 
(1) pixman 


pixman 是 一 个 确 层 的 像 系 操 作 的 库 ， 提 供 图 形 合 成 及 光栅 化 等 功 
能 ， 是 X 中 软件 痊 染 的 基础 。 


(2) xtrans 


xtrans 封 装 了 网 络 传输 的 基本 功能 ， 从 开 友 角度 讲 ， 是 X 服 务 右 和 应 
用 程序 之 间 进 行 通 信 的 基础 。X 服 务 嚣 、1libX11 等 X 的 相关 组 件 都 要 用 


到 这 个 库 。 
(3) libXau 
libXau 是 X 服 务 器 和 应 用 程序 之 则 认证 授权 使 用 的 库 。 


(4) libX11、1libxcb 和 和 libpthread-stubs 


libX11 是 为 应 用 程序 提供 的 X 协 议 的 实现 ， 应 用 程序 使 用 libX11 中 
提供 的 API 和 X 服 务 器 进行 通信 。 


因为 libX11 的 效率 问题 ， 开 友人 员 双 开发 了 libxcb 来 蔡 换 libX11。 而 
反 过 来 ，libX11 也 基于 xcb 进 行 了 改进 ， 所 以 在 安装 libX11 前 ， 需 要 安装 
1ibxcb 。 


libxcb 依 赖 libpthread-stubs， 此 在 安装 libxcb 前 需要 先 安 装 


libpthread-stubs。 
(5) libxkbfile、xXkbcomp 和 Xkeyboard-config 


这 三 个 包 都 与 键盘 扩展 相关 。X 服 务 器 根据 键盘 扩展 ， 确 定 不 同 键 
盘 模 型 的 键盘 的 布局 、 键 值 到 字符 的 转换 等 。 键 盘 相 天 的 数据 融 包 售 在 
Xkeyboard-config 中 。 


而 开发 者 将 操作 这 些 数据 的 功能 封装 在 库 libxkbfile 中 。 


xkbcomp 包 中 提供 了 同名 的 工具 xkbcomp， 该 工具 根据 键盘 映射 的 
描述 ， 将 键盘 映射 编译 为 X 服 务 需 可 以 识 吕 的 指定 格 陈 。 


(6) libXfont、1libfontenc 和 freetype 


这 几 个 库 都 是 与 字体 处 理 相 关 的 。 开 发 者 将 X 使 用 的 与 字体 相关 的 
功能 封装 在 库 libXfont 中 。 


而 libXfont 使 用 freetype 进 行 字体 泻 染 ， 使 用 libfontenc 处 理 字 体 编 
需要 安 


他。 上 所 以 安 痛 libXfont 训 减 libfontenc 和 freetype。 


(7) pciaccess 


早期 版 本 的 GPU 的 2D 驱 动 ， 包 括 X 服 务 器 中 的 一 些 功 能 ， 不 通过 内 
核 ， 而 是 直接 访问 PCI 接 口 的 GPU， 这 就 是 这 个 库 的 由 来 。 现 在 虽然 
GPU 张 动 都 通过 和 内核 访问 GPU 硬件 了 ， 但 是 又 服务 耸 中 并 没有 清理 得 特 
别 干净 ， 还 残存 着 对 pciaccess 库 的 依赖 。 


库 libdrm 中 也 使 用 了 部 分 pciaccess 中 的 功能 。 比 如 通过 谈 取 PCI 寄 存 
硕 探 铅 BIOS 中 给 GPU 分 配 的 显存 大 小 ，libdrm 依 助 的 就 是 库 pciaccess 中 
的 函数 。 


(8) libdrm 


用 户 空间 的 组 件 ， 如 GPU 的 2D 驱 动 和 3D 驱 动 、GLX 扩 展 〈( 包 括 义 
服务 器 端 和 Mesa 妆 的 实现 部 分 ) 等 ， 都 需要 通过 内 核 的 DRM 模 块 访 问 
GPU。 为 了 方便 用 户 空 间 的 组 件 访问 内 核 DRM 模 块 ， 开 发 者 开发 了 库 
libdrm 。 


(9) Mesa、expat、1libXext、1libXdamage 和 ]ibXfixes 


如 果 配 置 X 服 务 器 支持 DRI2， 那 么 必须 要 安装 Mesa， 它 是 3D 应 用 
程序 进行 直接 演 染 的 基础 。 


Mesa 中 的 DRI 扩 展 使 用 Damage 扩 展 告知 X 服 务 器 绘制 完成 ， 因 此 需 


要 安装 libXdamage。 


Mesa 中 的 DRI2 扩 展 使 用 XFixes 扩 展 中 的 如 XFixesCreateRegion 创 建 
及 生 了 改变 的 区 域 ， 也 残 是 绘制 用 生 的 区 域 ， 因 此 也 需要 安 净 库 
libXfixes。 


而 在 安装 扩展 前 ， 需 要 安装 库 libXext。 它 是 所 有 扩展 的 公共 库 。 


态 外 ，Mesa 使 用 expat 解 机 XML， 所 以 安 儿 Mesa 下， 还 需要 安 痛 


eXpat。 


在 安 猴 上 述 相关 库 之 前 ， 在 特 主 系统 上 还 需 安 猴 几 个 辅助 的 软件 
包 。 一 个 是 xkeyboard-config 依 赖 的 intltool。 男 外 是 Mesa 依 赖 的 xutils- 
dev、flex 和 bison， 使 用 如 下 命令 在 答 主 系统 上 安 寂 这 几 个 软件 包 : 


root@balilsheng:~# apt-get install intltool 
root@balisheng:~# apt-get install xutils-dev 
root@balisheng:~# apt-get install flex 
root@baisheng:~# apt-get install bison 


除了 了 Mesa 外， 这些 库 的 安 痛 完全 相同 。 以 pixzman 为 例 ， 配 置 及 安 半 
售 令 如 下 : 


人 


vita@baisheng:/vita/builds$ tar xvf ../source/pixman-0.28.0.tar.gz 

vita@baisheng:/vita/build/pixman-0.28.0$ ./configure \ 
--prefix=/usr 

vita@baisheng:/vita/build/pixman-0.28.0$ make 

vita@baisheng:/vita/build/pixman-0.28.0$ make install 


Mesa 的 配置 要 和 复杂 一 点 ， 配 置 命令 如 下 : 


vita@baisheng:/vita/build/Mesa-8.0.3$ ./configure --prefix=/usr \ 
--Wwith-dri-drivers=swrast,1915,1i965 \ 
--disable-gallium-llvm --without-gallium-drivers 


因为 笔者 的 测试 机 器 使 用 的 是 Intel 的 GPU， 因 此 为 了 简单 ， 这 里 仅 
编译 了 tel GPU 的 3D 驱 动 ， 而 且 使 用 经 典 模式 的 3D 驱 动 ， 不 使 用 
Gallium3D 模 式 的 驱动 。 


男 外 ， 我 们 不 使 用 libtool 人 查找 依赖 库 ， 因 此 每 次 安装 完 库 后 ， 切 记 
使 用 如 下 命令 删除 la 文件 ， 以 避免 libtool 带 来 兵 烦 : 


find S$SYSROOT -name "*.]la" -exec rm -上 '{}' AN; 


6.8.4 ”安装 XX 服务 器 


万 事 俱 备 ， 现 在 我 们 开始 安 闪 X 服 务 细 ， 配 置 及 安 冯 命 令 如 下 : 


vita@baisheng:/vita/builds tar \ 


WE GT TOO LL 2 bz2 
vita@baisheng:/vita/build/xorg-server-1.12.2$ ./configure \ 
--prefix=/usr --enable-dri2 --disable-dri --disable-xnest \ 
--disable-xephyr --disable-xvfb --disable-record \ 
--disable-xinerama --disable-screensaver \ 


--Wwith-xkb-output=/var/lib/xkb --with-log-dir=/var/log 
vita@baisheng:/vita/build/xorg-server-1.12.2$ make 
vita@baisheng:/vita/build/xorg-server-1.12.2$ find SSYSROOT \ 

-name "*.]a" -exec rm -f '{}' \; 


各 项 配置 参数 意义 如 下 。 


令 --enable-dri2、--disable-dri: 文 持 DRI2 扩 展 ， 不 文 持 已 经 过 时 的 
DRI1 扩 展 。 


全 --disable-xnest、--disable-xephyr、--disable-xvfb: 我 们 不 需要 模 
拟 的 XX 服务 絮 Xnest、Xephyr 和 Xvfb， 所 以 没有 必要 浪费 时 间 编 详 它 们 。 


S --disable-record、--disable-xinerama、--disable-screensaver: 为 简 


单 起 见 ， 我 们 不 使 用 X 服 务 磺 的 这 几 个 特性 。 


令 --with-xkb-output=/var/lib/xkb: 指定 工具 xkbcomp 编 详 的 键盘 映 
味 文 件 存 放 在 /var/lib/xkb 目 录 下 。 


仿 --with-log-dir=/var/log: 指定 X 服 务 需 将 日 忘 文件 保存 在 /vavlog 
日 未 下 。 


6.8.5 “安装 GPU 的 2D 张 动 


如 果 只 是 在 虚拟 机 上 运行 目标 系统 ， 安 装 vesa 驱 动 即 可 ， 安 装 命令 
如 下 : 


vita@baisheng:/vita/builds tar xvf \ 
../Source/X7.7/xf86-video-vesa-2.3.1.tar.bz2 
Vita@baisheng:/vita/build/xf86-video-vesa-2.3.1$ ./configure \ 
--prefix=/usr 
vita@baisheng:/vita/build/xf86-video-vesa-2.3.1$ make 
Vita@baisheng:/vita/build/xf86-video-vesa-2.3.1$ make install 


但 是 如 果 是 在 真实 的 机 器 上 运行 目标 系统 ， 最 好 安装 相应 GPU 的 
2D 驱 动 。 在 安装 脚本 build-X11.sh 中 ， 包 含 了 安装 Intel GPU 的 2D 张 动 的 
方法 ， 读 者 如 果 需 要 ， 可 以 参考 。PC 上 使 用 的 GPU 一 般 都 符合 VESA 标 
准 ， 所 以 在 通常 情况 下 ， 用 vesa 也 能 钢 强 驱动 ， 但 是 vesa 驱 动 很 多 特性 
不 文 持 ， 比 如 硬件 加 速 。 


6.8.6 ”安装 X 的 输入 设备 驱动 


看 到 输入 设备 驱动 ， 读 者 可 能 会 有 个 疑问 :， 内核 中 不 是 包括 了 各 种 
设备 的 驱动 吗 ? 上 怎么 X 中 还 要 安 冯 设 备 驱 动 ? 没 错 ， 输 入 设备 的 驱动 古 
在 内 核 中 ，X 中 的 所 谓 得 入 设备 的 张 动 evdev 谈 不 上 十 一 个 驱动 了 ， 只 不 
过 大 家 习惯 这 么 称呼 而 已 。evdev 模 块 并 不 面向 任何 其 体 输入 设备 ， 它 
只 不 过 是 接收 和 解析 内 核 肥 达到 用 户 空 间 的 输入 事件 。 仔 细 观 察 图 6-12 
所 示 的 Linux 输 入 了 于 系统 的 染 构 ， 读 者 目 然 束 会 明日 。 


: Input Core Event Handler 
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图 6-12 Linux 输 入 子 系统 架构 


操作 系统 将 面 对 各 种 各 样 的 输入 设备 ， 如 鼠标、 键盘 、 触 措 屏 、 洲 
戏 手 栅 等 。 由 于 这 些 输入 设备 大 部 分 不 谭 循 统一 的 标准 ， 所 以 导致 应 用 
程序 ， 比 如 和 X 将 不 得 不 处 理 来 目 各 种 输入 设备 的 五 化 八 门 的 输入 事件 。 


因此 ， 内 核 中 抽象 了 一 个 输入 了 于 系统 。 在 输入 子 系统 中 ， 爸 备 驱 动 
面 对 各 种 各 样 具体 的 价 件 设备 ， 而 输入 事件 经 过 事件 处 理 模 块 处 理 后 ， 
将 以 统一 的 格式 友 壕 给 用 户 空 间 的 应 用 ， 用 尸 空间 的 应 用 无 需 再 为 各 种 


各 样 的 输入 事件 格式 疲 于 痉 命 。 


现在 很 多 输入 设备 都 使 用 USB 接 口 ， 对 于 USB 接 口 的 输入 设备 ， 图 
6-12 演 化 为 图 6-13 所 示 。 





USB USB Host | ke USB HID| | Input Event | | 
Input Device Controller | ， Dl) Driver Core Handler || | 


Hardware ' Kerne| ' X Server 


图 06-13 Linux USB 设 备 的 输入 子 系 统 架 构 


USB 人 设备 退 过 主 控制 硕 连 接 到 主机 ， 所 以 内 核 需 要 驱动 USB 主 控制 
侣 。USB 洲 行 的 一 个 主要 原因 就 是 具有 统一 的 标准 ， 所 以 对 于 USB 接 口 
的 输入 设备 ， 它 们 使 用 统一 的 设备 驱动 ， 即 图 6-13 中 的 USB HID 了 驱动。 


通过 上 面 的 讨论 可 见 ， 从 操作 系统 的 角度 ， 安 北 X 的 输入 设备 驱动 
事实 上 有 两 件 事 需要 做 : 一 是 需要 配置 内 核 的 输入 设备 相关 的 驱动 和 模 


块 ， 二 是 安装 X 的 evdev 模 块 。 
1. 配 置 内 核 输入 子 系统 相关 驱动 


如 前 文 所 说 ， 现 在 大 部 分 鼠标 、 键 盘 等 输入 设备 都 使 用 USB 接 口 ， 
所 以 这 一 市 我 们 以 USB 接 口 的 输入 设备 为 例 ， 来 配置 内 核 中 的 输入 设备 
相关 的 驱动 和 模块 。 包 括 配 置 USB 总 线 及 控制 器 的 驱动 、USB 输 入 设备 
的 驱动 以 及 事件 处 理 柑 块 。 


(1) 配置 USB 总 线 以 及 USB 主 控制 喜 驱 动 
配置 USB 总 线 及 USB 主 控制 器 驱动 的 步骤 如 下 : 


1) 执行 make menuconfig， 出 现 如 图 6-14 所 示 的 界面 。 
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图 6-14 配置 USB 总 线 及 USB 主 控制 器 驱动 (1) 


2) 在 图 6-14 中 ， 选 择 菜单 项 "Device Drivers"， 出 现 如 图 6-15 所 示 的 
界面 。 
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图 6-15 配置 USB 总 线 及 USB 主 控制 器 驱动 (2) 


3) 在 图 6-15 中 ， 选 中 荣 单项 "USB support"， 出 现 如 图 6-16 所 示 的 界 
面 。 


--- UsB Support 


<*» Sypport for Host-side USB 
[ :] LSB verbose debug messages (NEW) 
[ ] LSB announce new devices (NEW) 
tt* MiscelLlaneous USB options *** 
[] Dynamic USB minor allocation (NEW) 
< >» USB Monitor (NEW) 
< >» 5Upport WUSB Cable Based Association (CBA) (NEW) 
tk SB Host ControLLer Drivers 二 二 二 
< > Cypress C67x80 HCD support (NEW) 
<#> xHCI HCD (USB 3.0) support 
[】 Debugging for the xHCI host ControLLer (NEW) 
<*>»> EHCI HCD (USB 2.0) syupport 
[ ] Root Hub Transaction Translators (NEW) 
[*] Improved Transaction TransLator scheduling (NEW) 
< > OXU216HP HCD support (NEW) 
< > ISP1l16X HCD support (NEW) 
< > ISP 1769 HCD syupport (NEW) 








ISP1362 HCD suypport (NEW) 
OHCI HCD support 

Ceneric OHCI driver for a platform device (NENW) 
Generic EHCI driver for a platform device (NEW) 
UHCI HCD (most Intel and VIA) support 


图 6-16 配置 USB 总 线 及 USB 主 控制 器 驱动 (3) 


4) 在 图 6-16 中 ， 选 中 "Support for Host-side USB"， 并 分 别 选 中 几 个 
典型 的 USB 主 控制 如 的 驱动 ， 包 括 "xHCI HCD(USB 3.0)support"、"EHCI 
HCD(USB 2.0)support"、"OHCI HCD support"、"UHCI HCD(most Intel 
and VIA)support"。USB 总 线 及 主 控制 大 张 动 配置 完成 。 


(2) 配置 USB 输 入 设备 驱动 


在 配置 了 内 核 文 持 USB 总 线 和 主 控制 器 之 后 ， 一 般 内 核 都 会 自动 配 
置 文 持 USB HID 设 备 ， 人 至少 我 们 使 用 的 3.7.4 厂 本 的 内 核 是 这 样 的 。 如 末 
读者 使 用 了 其 他 版 本 内 核 ， 请 目 己 确认 ， 配 置 过 程 为 : 首先 进 
入 "Device Drivers" 界 面 ， 然 后 再 进入 "HID support" 界 面 ， 查 看 USB HID 
是 售 已 经 被 选中 ， 一 般 情 况 下 选中 "Generic HID driver" 即 可 。 


(3) 配 普 事件 处 理 模块 


1) 执行 make menuconfig， 出 现 如 图 6-17 所 示 的 界面 。 


Executable file formats / Emulations ---> 
| Networking Support ---> 

Device Drivers ---> 

Firmware Drivers -=--> 





图 6-17 配置 事件 处 理 模块 (1) 


2) 在 图 6-17 中 ， 选 择 采 早 项 "Device Drivers"， 出 现 如 图 6-18 所 示 的 
界面 。 


上 Network device sUpport ---> 





Inout deviece SUDDCrt ---> 
character devices ===» 


图 6-18 配置 事件 处 理 模 块 (2) 


3) 在 图 6-18 中 ， 选 择 采 早 项 "Input device support"， 出 现 如 图 6-19 所 
示 的 夫 而 。 


< > Jovstick interface 





< > Event debugging 
二 二 二 JInput DeVLCe DrLVvers 二 二 二 


图 6-19 配置 事件 处 理 模块 (3) 
4) 在 图 6-19 中 ， 选 中 "Event interface"， 事 件 处 理 模 块 配 置 完成 。 


Linux 系 统 运行 时 ， 事 件 处 理 模块 将 为 输入 设备 在 /dev/input 目 录 下 
建立 相应 的 市 后， 一 般 形 如 eventX， 其 中 "X" 十 具体 的 数字 。 在 调试 X 的 
也 标 、 键 盘 、 触 换 屏 等 输入 设备 的 驱动 时 ， 一 旦 过 到 麻烦 ， 可 以 先 确 认 
内 核 中 的 设备 驱动 和 事件 处 理 模块 是 否 已 经 正确 工作 。 方 法 之 一 就 是 通 
过 耳 接 读 取 这 些 输入 设备 的 市 把， 命令 如 下 (其 中 "X" 根 据 具 体 的 情况 
1 


cat /dev/input/eventX 


然后 操作 鼠标 或 者 键盘 等 输入 设备 ， 通 过 观察 是 侣 有 数据 输出 ， 以 
确认 内 核 的 输入 子 系统 部 分 赴任 已 经 正确 工作 。 


2. 安 装 evdev 模 块 


使 用 如 下 命令 安 痛 X 服 务 硕 使 用 的 evdev 模 块 : 


Vitaa@baisheng:/vita/builds tar xvf \ 
../Source/X7.7/xf86-input-evdev-2.7.0.tar.bz2 

vita@baisheng:/vita/build/xf86-input-evdev-2.7.0$ ./configure \ 
--prefix=/usr 

vita@baisheng:/vita/build/xf86-input-evdev-2.7.0$ make install 


6.8.7” 运行 X 服 务 需 


X 服 务 吉 将 建立 一 个 父 接 字 与 应 用 程序 进行 通信 ， 通 单 这 个 套 接 字 
被 命名 为 tmp/.X11-unix/X0"，0 表 示 是 第 一 个 X 服 务 器 ， 如 果 再 局 动 第 
二 个 X 服 务 器 ， 则 为 tmp/.X11-unix/X1"。 除 了 建立 套 接 字 外 ，X 服 务 器 
还 将 在 /tmp 目录 下 建立 一 个 锁 文 件 ， 例 如 对 于 第 一 个 X 服 务 器 ， 这 个 锁 
文件 为 /tmp/.X0-lock"。 另 外 ， 在 前 面 编译 时 ， 我 们 指定 X 服 务 磺 将 日 志 
文件 存放 在 /vavlog 目 录 下 ， 因 此 ， 我 们 需要 在 根 文件 系统 中 建立 这 两 个 
目录 : 


vita@baisheng:/vita/rootfss mkdir -D tmp var/log 


为 了 使 书 中 的 截图 不 至 于 尺寸 过 大 ， 笔 者 将 vita 系 统 的 X 服 务 器 的 
分 辩 京 设置 为 “640x480”。 最 和 裤 ，X 服 务 右 完全 由 用 户 通 过 书写 配置 文件 
的 方式 手动 配置 ， 在 udev 出 现 后 ，X 服 务 器 采用 了 自动 配置 技术 。 但 是 
X 也 给 用 户 留 有 机 会 进行 手动 微调 ， 并 且 用 户 手 动 配置 的 优先 级 还 要 更 
高 。 当 然 谈 者 不 必 设 置 分 辨 率 ， 由 X 服 务 器 自动 探测 即 可 。 通 过 
xorg.conf 设 定 分 辩 座 的 方法 如 下 : 


/vita/svyvsrooty/etc/X1L1L/xordd.conf : 


Section "Screen" 
Identifier "ScreenO0'" 
SubSection "Display'" 

modes N640x480" 
EndSubSection 
EndSect1ion 


最 急 ，X 服 务 冲 局 动 后 将 创建 并 显示 鼠标 指针 。 后 来 ，X 的 开 友 人 
员 认 为 只 有 在 应 用 程序 明确 表明 需要 与 用 户 进行 区 互 时 ， 才 应 该 受 示 限 
标 指 针 。 所 以 ， 这 个 默认 行为 友 生 了 改变 ， 在 X 服 务 莫 局 动 后 ， 不 再 默 
认 创 建 并 显示 鼠标 指针 ， 而 十 在 第 一 个 应 用 明确 调用 类 似 XDefineCursor 


这 样 的 函数 请 求 X 服 务 占 显示 鼠标 后 ， 才 显示 鼠标 指针 。 


参数 "-retro"。 如果 


但 是 X 还 是 为 用 户 留 了 余地 ， 增 加 了 一 个 命令 行 
么 给 X 服 务 器 传递 这 个 


用 户 运行 X 服 务 夯 局 动 时 即 创建 和 显示 鼠标 ， 那 
参数 即 可 。 


在 默认 情况 下 ， 当 最 后 一 个 XX 应 用 断 开 与 X 服 务 器 的 连接 后 ，X 服 务 
合 默 认 目 动 重 置 。 同 样 ，X 也 为 这 个 行为 提供 了 修正 的 机 会 ， 用 户 可 以 
使 用 命令 行 参 数 "-noreset" 天 闭 这 个 特性 。vita 系 统 不 需要 这 个 特性 ， 
此 我 们 传递 了 "-noreset" 参 数 给 义 服务 器 。 

最 后 ， 使 用 如 下 命令 运行 X 服 务 右 : 


root@vita:~# Xorg -retro -noreset & 


在 X 服 务 硕 司 动 成 功 后 ， 将 创建 一 个 根 窗口 ， 作 为 未 来 所 有 用 户 窗 


口 的 根 。 黑 认 情 况 下 ， 这 个 根 窗口 只 以 一 个 徐 单 的 灰色 育 景 辽 示 。 并 且 
我 们 看 到 ，X 也 按照 我 们 的 要 求 ， 创 建 并 显示 了 鼠标 指针 ， 如 图 6-20 所 


和 小 。 
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图 6-20 又 服务 器 成 功 启 动 


6.8.8 ”一 个 简单 的 X 程 序 


我 们 使 用 Xlib 编 写 一 个 简单 的 X 程 序 来 确认 XX 服务 器 是 否 已 经 正常 
工作 。 这 个 程序 非常 简单 ， 就 是 创建 一 个 窗口 ， 并 在 其 上 显示 字符 


串 "Hello X Window!"， 代 码 如 下 : 


/vita/build/hello x/hello x.c: 


#include <X1l1/Xlib.h> 
#include <X11/Xatom.h> 
#include <stdio.h> 
#include <string.h> 


int main(int argc, char *argv[]) 


人 


Display *dpy; 

int screen num; 

Window win; 

nt wk， 和 

unsigned int w, h; 

Atom atom win type, atom win type normal; 


XEvent e; 

GE Ge 

char *s = "Hello X Window !".; 

if (!(dpy = XOpenDisplay (NULL))) { 


fprintf (stderr, "Can't connect to X sever!\n'"); 
return -1; 


screen num = DefaultScreen (dpy); 
> 

DisplayWidth(dpy, screen num) / 2; 
DisplayHeight (dpy, screen num) / 2; 


DD 扎 
| 


win = XCreateSimpleWindow (dpy, DefaultRootWindow (dpy), 
x, Yy: Ww; hi 2; BlackPixel (dpy, screen num), 
WhitepPixel (dpy, screen num)); 


XStoreName (dpy, win, "Hello X11").,; 


atom win type = XInternAtom(dpy, " NET WM WINDOW _ TYPE" ， 
FalLSse) ; 
atom win type normal = XIDPteznAtom(Qapy， 
" NET WM WINDOW TYPE NORMAL", False); 
XChangeProperty (dpy, win, atom win type, XA ATOM, 
32, PropModeReplace, 
(unsigned char *)&atom win type normal, 1); 


XSelectInput (dpy, win, ExposureMask)., 
gc = XCreateGC(dpy, win, 0, 0); 
XMapWindow (dpy, win),; 


while (1) { 
XNextEvent (dpy, &e); 


Switch (e.type) { 
Case EXPOSe : 
XDrawString (dpy, win, gc, 30, 30, s, strlen(s)).， 
break; 


编译 这 个 程序 的 Makefile 如 下 : 
/vita/build/hello x/Makefile: 
LDFLAGS= DKg-Confldg --l1ibs XI 
ells x Delles Wo 


Clean: 
xm = helle 3 we 
编译 后 通过 scp 命 令 将 hello x 复制 到 vita 系 统 ， 并 通过 ssh 登 录 人 到 jvita 
系统 ， 相 应 命令 如 下 : 
vita@balsheng:/vita/build/hello xs$ scp hello x 


root@192.168.56.2: /root/ 
root@baisheng:~# ssh 192.168.56.2 


在 登录 到 vita 的 终 如 中， 使 用 如 下 命令 局 动 X 服 务 占 ， 并 运行 应 用 
程序 hello x: 


root@vita:~# XOIGg -retro & 
root@vita:~# export DISPLAY=:0.0 
root@vita:~# ./hello x & 


注意 环境 变量 DISPLAY 的 设置 ， 其 格式 如 下 : 


hostname: displavynumber.screennumber 


如 果 主 机 名 (hostname〉 为 衬 ， 则 表示 X 服 务 需 运行 在 本 机 。 旋 者 
可 以 把 display 理 解 为 一 个 X 服 务 器 ，screen 这 里 无 须 解释 。displaynumber 
和 screennumber 均 从 0 开始 计数 ， 如 值 为 “:0.0” 表 示 运 行 在 本 机 的 第 一 个 
X 服 务 器 接 的 第 一 块 屏 秦 。vita 系 统 只 局 动 了 一 个 X 服 务 嚣 ， 并 且 只 接 一 
块 屏 。 所 以 日 然 将 环境 变量 DISPLAY 设 置 为 “:0.0”。 


如 果 一 切 正 常 ， 则 应 用 程序 运行 情况 如 图 6-21 所 示 。 
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图 6-21 一 个 简单 的 使 用 Xlib 编 写 的 程序 


6.8.9 配 罩 内核 文 持 DRM 


如 采 读 者 古 在 真实 机 右上 调试 的 ， 那 么 为 了 使 GPU 的 2D 了 驱动 和 3D 
驱动 都 可 以 正常 工作 ， 内 核 中 还 需要 进行 相关 的 配置 ， 因 为 用 户 空间 的 
GPU 驱动 是 通过 内 核 中 的 DRM 访 问 GPU 的 。GPU 用 户 空间 的 驱动 〈2D 
和 3D 驱 动 ) 和 内 核 空 间 的 驱动 (DRM 模块 ) 之 间 的 关系 如 图 6-22 所 


和 修 。 
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图 06-22 GPU 驱动 各 部 分 间 的 关系 


在 本 和 有 中， 我 们 以 Intel 的 GPU 为 例 来 讨论 内 核 中 关于 GPU 的 相关 配 
置 。IPmtel 的 GPU 使 用 了 AGP 局 部 总 线 ， 所 以 在 配置 GPU 的 DRM 模 块 前 ， 
需要 首先 配置 内 核 文 持 AGP 上 总线。 


(1) 配置 AGP 总 线 
配置 AGP 总 线 的 步骤 如 下 : 


1) 执行 make menuconfig， 出 现 如 图 6-23 所 示 的 界面 。 


Execyutable file formats / Emulations 
| Networking syupport ---> 





Deviece Drivers ---> 
FTLFWSTe Drivefrs -=-=--» 


图 6-23 配置 AGP 总 线 (1) 


2) 在 图 6-23 中 ， 选 择 "Device Drivers"， 出 现 如 图 6-24 所 示 的 界面 。 


| voltage and Current Regulator support 

Multimedia support -=---»> 

craphics support 

> SOUnd card SuUpport ---> 
HID Support ---> 






图 6-24 配置 AGP 总 线 (2) 


3) 在 图 6-24 中 ， 选 择 "Graphics support"， 出 现 如 网 6-25 所 示 的 界 
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图 6-25 配置 AGP 总 线 (3) 


4) 在 图 6-25 中 ， 选 中 "/dev/agpgart(AGP Support)"， 出 现 如 图 6-26 所 
示 的 界面 。 
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图 6-26 配置 AGP (4) 


5) 在 图 6-26 中 ， 选 中 "Intel 440LX/BX/GX,I8xx and E7x05 chipset 
support"。AGP 总 线 配 置 完毕 。 


(2) 配置 DRM 模 块 


配置 DRM 的 前 两 步 与 图 6-23 和 6-24 完 全 相同 ， 在 图 6-24 所 示 的 界面 
选择 "Graphics support" 后 ， 将 出 现 如 图 6-27 所 示 的 界面 。 


> Direct Rendering Manager (XFree86 4.1.9 and hi 
> 30fx Banshee/Voodoo3+ (NEW) 
> ATI Rage 128 (NEW) 
= ATI Radeon (NEW) 
> Nouveau (nvidia) cards (NEW) 
I2C encoder or helper chips ---> 
< > Intel I819 (NEW) 
<M> Intel Se ee es Graphics 





< > Matrox g2990/g4609 a 
< > Sis video cards (NEW) 


图 6-27 配置 内 核 支 持 DRM 


在 图 6-27 中 ， 首 先 选 中 "Direct Rendering Manager"， 表 示 需 要 内 核 
支持 DRM， 这 是 DRM 的 通用 部 分 。 然 后 还 要 选中 驱动 具体 GPU 的 模 
块 ， 比 如 适合 笔者 测试 机 如 的 DRM 模 块 为 "Intel 8xx/9xx/G3x/G4x/HD 
Graphics"， 并 且 要 勾 选 其 下 的 子 选项 "Enable modesetting on intel by 
default"， 这 个 特性 就 是 所 谓 的 KMS (Kernel Mode Setting) 。 对 于 Intel 
的 GPU， 这 十 必 须要 选择 的 ， 人 耕 则 用 尸 空间 的 2D 和 和 3D 驱动 可 能 部 会 迪 
到 矿 烦 。 


一 切 配 置 好 后 ， 那 么 如 何 确 定 我 们 的 配置 是 正确 的 ， 并 且 已 经 生效 
呢 ? 我 们 可 以 按 如 下 方法 验证 。 


验证 2D 驱 动 


可 以 通过 得 看 又 的 日 专文 件 确认 GPU 的 2D 张 动 站 售 已 经 被 正确 加 


载 。 比 如 在 笔者 使 用 的 万 外 一 台 真 实测 斌 机 上 ，tel 的 2D 驱 动 成 功 加 载 
后 输出 的 初始 化 信息 如 下 : 


root@vita:~# cat /var/log/Xorg.0.1o0og 


[ 48.560] (II) intel: Driver for Intel Integrated Graphics 
Chipsets: i1810, 


[ 49.277] (==) intel (0): Depth 24, (--) framebuffer bpp 32 

[ 49.287] (==) intel(0):; RGB weight, 888 

[ 49.287] (==) intel (0): Default visual is TrueColor 

[ 49.287] (II) intel(0): Integrated Graphics Chipset: Intel (R) 945GME 
[ 49.288] (--) intel(0): Chipset: "945GME" 


[ 49..335] 《II intel(0): Modeline 800x600"x56.2 36.00 800 824 896 1024 
600 601 603 625 +hsynec +vevne (35,.2 kHz d) 
[ 49.381] {II) intel(0): EDID for output VGA1I 
[ 49.381] (II) intel (0): Output LVDS1 connected 
[ 49.381] (II) intel(0): Output VGA1 disconnected 


验证 3D 驱 动 


可 以 使 用 Mesa 提 供 的 工具 ， 如 glxinfo， 查 看 GPU 的 3D 驱 动 是 否 已 
经 正确 加 载 。 读 者 可 以 从 Mesa 的 网 站 下 载 并 编译 工具 glxinfo， 或 者 偷 个 
懒 ， 从 宿主 系统 复制 过 来 一 个 ， 只 要 版 本 差别 不 是 特别 大 ， 一 般 都 可 以 
正常 运行 。 可 以 远程 登录 ， 或 者 在 测试 机 器 的 本 地 运行 一 个 终端 ， 使 用 
glxinfo 命 令 查看 3D 驱 动 是 否 已 经 正常 工作 : 


root@vita:~# export DISPLAY=:0.0 
root@vita:~# ./glxinfo 


OpenGL renderer string: Mesa DRI Intel(R) 945GME x86/MMX/SSE2 


再 比如 在 笔者 的 答 主 机 上 使 用 命令 glxinfo 查 看 ， 显 示 如 下 : 


root@baisheng:~# glxinfo | grep "renderer string" 
OpenGL renderer string: Mesa DRI Intel (R) Sandvybridoage Mobile 
X86/MMX /SSE2 


仔细 观 罕 glxinfo 的 输出 ， 可 以 看 到 在 3D 演 染 时 ， 使 用 的 是 Intel GPU 
的 3D 了 驱动。 如果 是 软件 泻 染 ， 则 输出 类 似 如 下 : 


OpenGL renderer string: Software Rasterlzer 


6.9 ”安装 图 形 库 


有 前面， 我 们 使 用 Xlib 编 写 了 一 个 小 程序 。 但 是 我 们 也 看 到 ，Xlib 古 
多 么 的 原始 ， 使 用 X 提 供 的 库 编 写 一 个 如 此 简单 的 程序 是 多 么 的 复杂 ， 
更 别提 具有 复杂 图 形 用 户 界 面 的 程序 了 。 上 所 以 先辈 开发 者 们 前 赴 后 继 ， 
尝试 在 Xlib 的 基础 上 为 X 开 发 更 高 级 的 图 形 库 ， 这 些 图 形 库 通常 被 称 为 
Widget Libraries 或 Toolkits， 其 中 最 著名 的 束 古 GTK 和 QT。 这 些 图 形 库 
引入 了 控件 的 概念 ， 极 大 简化 了 程序 开 及 ， 也 提高 了 开发 效率 。 


我 们 选择 GTK 作 为 vita 系 统 的 图 形 库 。 这 一 节 ， 我 们 就 来 编译 安装 
GTK。 相 比 于 安装 X， 疼 形 库 的 安 闭 过 程 相 对 要 简单 ， 但 是 我 们 也 提供 
了 一 个 编译 脚本 build-gtk.sh。 必 要 时 ， 读 者 可 以 参考 这 个 脚本 。 


6.9.1 安 痛 GLib 和 jib 人 fi 


GLib 是 GTK+ 和 GNOME 工 程 的 基础 底层 核心 程序 库 ， 是 一 个 实用 
的 轻 量 级 的 库 ， 它 提供 常用 的 数据 结构 、 相 关 的 处 理 函 数 和 一 些 运行 时 
文 承 机 制 ， 如 事件 循环 、 线 程 、 对 象 系统 等 。 因 此 安装 GTK+ 前 首先 需 
要 安 六 GLib。GLib 目 前 也 由 开发 GTK+ 的 团队 维护 。 


因为 GLib 提 供 的 对 象 系统 (GObject) 可 以 绑 定 到 多 种 语言 ， 常 见 
的 如 C、Python、Ruby 等 ， 因 此 ，GLib 的 对 象 系统 借助 库 libffi 处 理 不 同 


语言 则 的 水 数 调 用 。]ibffi 是 专门 设计 的 一 个 库 ， 主 要 用 于 不 同 语言 则 的 
相互 调用 。 因 此 ， 安 装 GLib 前 还 需要 安装 libffi。 


» 


libffi 和 GLib 的 编译 安装 命令 如 下 : 


vita@baisheng:/vita/builds$ tar xvf ../source/libffi-3.0.11.tar.gz 

vita@baisheng:/vita/build/libffi-3.0.11$ ./configure \ 
--prefix=/usr 

vita@baisheng:/vita/build/libffi-3.0.11$ make install 

vita@baisheng:/vita/build/libffi-3.0.11$ find $SYSROOT -name \ 
"*.la" -exec rm -f '{}' \; 


vita@baisheng:/vita/builds$ tar xvf ../source/glib-2.32.4.tar.xz 
vita@baisheng:/vita/build/glib-2.32.4$ ./configure --prefix=/usr 
vita@baisheng:/vita/build/glib-2.32.4$ make install 
vita@baisheng:/vita/build/glib-2.32.4$ find SSYSROOT -name \ 

na Ta =exee Tm =E MY Vs 


6.9.2” 安 竣 ATK 


ATK (Accessibility ToolKit) 是 GTK 中 实现 辅助 功能 使 用 的 库 ， 包 
括 辅 助 视 沉 、 听 和 沉 、 打 字 等 。 这 个 库 也 是 别 无 选择 ， 必 须要 安 儿 的 ， 安 


装 命 令 如 下 : 


vita@baisheng:/vita/builds$ tar xvf ../source/atk-2.4.0.tar.xz 
vita@baisheng:/vita/build/atk-2.4.0$ ./configure --prefix=/usr 
vita@baisheng:/vita/build/atk-2.4.0$ make install 
vita@baisheng:/vita/build/atk-2.4.0$ find $SYSROOT -name \ 

nw la" “exec rm = 上 '{}' \; 


6.9.3 ” 安 攻 libpng 


图 形 库 当然 离 不 开 图 片 格式 处 理 的 库 ， 常 用 的 图 片 格式 有 多 种 ， 比 
如 PNG、JPEG 等 。 但 是 为 了 人 简章 起见，vita 系 统 只 文 持 PNG 图 片 格式 。 
处 理 PNG 图 形 格式 的 库 古 libpng， 安 装 命 令 如 下 : 


vita@baisheng:/vita/builds tar xvf ,../source/libpng-1.5.12.tar,.xz 

vita@baisheng:/vita/build/libpng-1.5.12$ ./configure \ 
--prefix=/usr 

vita@baisheng:/vita/build/libpng-1.5.12$ make install 

vita@baisheng:/vita/build/libpng-1.5.12$ find SSYSROOT -name \ 
"*.l]a'" -exec rm -f '{}' \; 


6.9.4 安 闻 GdkPixbuf 


GTK 使 用 GdkPixbuf 进 行 图 片 的 演 染 ， 是 GTK 图 形 库 的 基本 依赖 之 


一 ， 是 必须 安装 的 ， 安 装 命令 如 下 : 


vita@baisheng:/vita/builds tar xvf NA\ 
.. /SOUrce/gdk-pixbuf-2,26.3,.tar,Xxz 
vita@baisheng:/vita/build/gdk-pixbuf-2.26.3$ patch -pl 
< ../../Source/gdk-pixbuf-2.26.3-disable-test .patch 
vita@baisheng:/vita/build/gdk-pixbuf-2.26.3$ ./configure \ 
--prefix=/usr --without-libtiff --without-libjpeg 
vita@baisheng:/vita/build/gdk-pixbuf-2.26.3$ make install 
vita@baisheng:/vita/build/gdk-pixbuf-2.26.3$ find S$SYSROOT 、 
-Dame "*.]a'" -exec rm -f '{}' \; 


为 简单 起 见 ， 我 们 禁 掉 了 其 对 JPEG 和 TIFF 格 式 的 支持 ， 否 则 ， 
需要 安装 如 库 libpng 一 样 操作 JPEG 和 TIFF 格 式 的 库 。 所 以 ， 读 者 在 vita 
上 使 用 GTK 开 及 程序 时 ， 也 不 要 使 用 JPEG 和 TIFF 格 去 的 图 片 。 当 然 除 
了 PNG 格 式 ，GdkPixbuf 也 上 默 认 文 持 其 他 一 些 格式 ， 在 安 站 后 ， 读 者 可 
以 使 用 如 下 命令 得 看 其 文 持 的 图 乒 格 却 : 
is 


libpixbufloader-ani.so libpixbufloader-icns.so 
libpixbuftloader-png.so libpixbufloader-ras.so 
libpixbufloader-xbm.so libpixbufloader-bmp .so 


libpixbutftloader-wbhmp .so 


6.9.5 ”各 闭 Fontconfig 


Linux 最 初 在 我 国 的 程序 员 中 流行 时 ， 有 很 多 程序 员 热 束 于 Linux 的 
类 化 ， 其 中 优化 文字 的 显示 是 其 中 主要 内 容 之 一 ， 人 至 今 在 各 个 Linux 论 
坛 仍 然 可 见 Linux 才 化 的 吴 影 。 文 本 这 染 比较 烦琐 ， 除 了 技术 原因 外 ， 
文本 处 理 机 制 不 断 的 发 展 变化 ， 从 最 初 的 X 的 核心 字体 ， 到 X 的 字体 服 
务 蓝 ， 再 到 现在 广泛 采用 的 客户 站 泻 染 ， 也 给 这 个 本 身 了 吏 不 是 特别 容易 
理解 的 领域 增加 了 很 多 复杂 性 。 


几 是 涉及 字体 相 天 的 地 方 ， 我 们 经 第 看 到 如 Fontconfig、Freetype、 
Pango， 甚 至 更 多 ， 这 些 库 在 文本 泻 染 中 都 担任 什么 角色 ? 它们 之 间 的 
天 系 义 是 什么 ? 在 我 们 埋头 挫 建 系统 时 ， 还 是 要 个 时 抬头 看 看 路 的 。 下 
面 ， 我 们 束 结 合 图 6-28 来 镜 单 地 介绍 一 下 文本 的 渔 染 。 


你 好 Linux! 





Application 





Screen 


图 6-28 文本 演 染 过 程 示 意图 
(1) 字符 编 公 (character code) 


虽然 我 们 在 写 程 序 时 ， 直 接 使 用 可 读 的 字符 ， 但 事实 上 ， 在 程序 内 
部 ， 是 用 字符 的 编码 来 代表 字符 的 。 字 符 的 编码 有 多 种 标准 ， 比 如 ISO- 
8859 系 列 编码 ，Unicode 编 码 以 及 我 国 的 GB18030 等 。 


假设 系统 使 用 UTF8 编 码 ， 当 程序 准备 显示 字符 串 “ 你 好 Linux!”* 时 ， 
程序 中 将 以 编码 "4F60 597D 4C 69..." 来 记录 这 个 字符 串 。 


(2) 字形 (glyph) 


字形 是 字 的 形体 的 简称 ，GB/T 16964《 信 息 技 术 字 型 信息 交换 》 中 
关于 字形 的 的 定义 为 : 一 个 可 以 辨认 的 抽象 的 图 形 符 写 ， 它 不 依赖 于 任 


何 特定 的 设计 。 


这 样 解释 读者 可 能 依然 会 感到 比较 生 玩 ， 因 为 平时 我 们 很 少 使 用 这 
个 概念 ， 但 是 捉 到 字体 ， 大 家 融 一 定 比 较 熟 悉 了 了 ， 因 为 操作 系统 中 一 定 
要 安 变 字体 文件 的 ， 人 否则 是 不 能 正确 好 示 罕 符 的 。 而 所 谓 的 这 个 字体 文 


件 ， 其 实 就 是 字形 的 集合 。 
以 TrueType 字 体 文件 为 例 ， 其 中 包含 两 个 关键 的 数据 结构 ; 


令 一 个 是 字形 表 ， 也 称 为 glyf。 字 形 表 中 每 一 项 代表 一 个 字形 ， 使 
用 字形 索引 访问 其 中 的 字形 。TrueType 的 字形 表 中 ， 每 个 字形 的 描述 并 
非 如 图 6-28 中 的 字形 表 〈glyf) 中 显示 的 那样 直观 ， 字 形 表 中 描述 的 字 
形 信息 都 是 矢量 的 ， 字 符 的 每 一 个 笔画 都 是 由 多 条 曲线 包围 而 形成 的 。 
一 次 曲线 需要 两 个 点 来 确定 ， 二 次 需要 三 个 点 ， 三 次 就 需要 四 个 点 。 字 


体内 部 你 和 存 了 这 些 后 的 坐标 。 


仿 一 个 是 字符 编码 到 字形 映射 表 (Character to Glyph Mapping) ， 
简称 cmap。 读 者 可 能 会 有 个 疑问 ，cmap 中 的 第 二 列 为 什么 不 是 字形 ， 
而 是 字形 索引 呢 ? 原因 是 字体 文件 可 能 使 用 在 不 同 的 编码 环境 中 ， 所 以 
字体 文件 可 能 包含 多 个 cmap 表 ， 比 如 UTF8 对 应 一 个 cmap 表 ，GB18030 
对 应 另外 一 个 cmap 表 。 另 外 ， 一 个 字体 文件 中 也 可 能 不 只 包 售 一 种 字 
体 。 


(3) 排版 (layout) 


每 每 谈 到 文本 泻 染 时 ， 大 家 更 多 的 关注 在 字体 上 ， 却 往往 忽略 了 文 
本 的 布局 排版 。 实 际 上 ， 文 字 的 排版 是 重要 而 且 复杂 的 。 排 版 引擎 需要 
将 单个 字符 按照 一 定 的 间距 美观 的 排列 起 来 。 


除了 处 理 字 形 信息 外 ， 由 于 世界 上 有 多 种 文字 体系 ， 因 此 ， 文 本 可 
能 是 多 种 语言 混合 的 。 而 且 ， 还 有 像 阿 拉 伯 文 、 硕 伯 来 文 这 种 文字 体系 
是 从 右 回 于 书写 ， 蝎 别提 布局 规则 极其 复杂 的 印度 系 文 字 。 

可 见 ， 排 版 引擎 是 一 位 真正 的 医 后 英雄 。 而 且 ， 文 本 演 染 的 过 程 都 


症 由 排 厂 引擎 府 头 开始 的 ， 不 同 的 图 形 库 可 能 使 用 不 同 的 排版 引擎， 
GTK 使 用 的 排版 引擎 是 Pango。 


(4) 确定 字体 


在 将 字符 编 查 转化 为 字符 前 ， 首 先 需 要 确定 字体 文件 ， 合 则 巧 妇 也 
难为 无 米 之 炊 。 一 个 系统 中 可 能 安 疙 了 多 个 字体 文件 ， 因 此 ， 在 众多 的 


站 二 
字体 文件 中 要 选择 一 个 最 合适 的 ， 这 吏 是 Fontconfig 的 主要 任务 之 一 。 


进行 文本 泻 染 时 ，Pango 收 集 来 目 各 方 的 字体 信息 ， 如 系统 主题 中 
设置 如 下 : 


汪 


font: Italic 18; 


程序 和 目 号 的 设置 如 下 : 
pango font description from string( "Serift bold 12™ ); 


可 能 还 有 来 自如 图 形 库 等 其 他 方面 的 信息 ， 总 之 ，Pango 最 后 加 工 
出 一 个 字体 描述 ， 将 它 传递 给 Fontconfig， 这 个 描述 称 为 模式 
(Pattern) ，Fontconfig 根 据 配置 文件 对 这 个 模式 进行 进一步 加 工 ， 
Fontconfig 通 常会 修改 或 者 增加 一 些 属 性 。 


最 终 ，Fontconfig 以 加 工 好 的 模 陈 在 众多 的 字体 中 匹配 一 个 最 合适 
的 字体 。 


(5) 光栅 化 


一 旦 字体 确定 后 ，Fontconfig 使 用 库 Freetype 提 供 的 接口 ， 确 定 字符 
编码 对 应 的 字形 索引 ， 依 据 的 束 是 如 TrueType 字 体 文 件 中 的 cmap 表 。 最 
后 ，Freetype 根 据 字 形 系 引 ， 从 字体 文件 的 字形 表 中 获取 拍 述 字形 的 天 
量 信息 ， 构 建 具 体 的 字形 ， 这 个 过 程 也 叫 光 栅 化 。 经 过 光栅 化 的 字符 编 
僻 ， 就 是 一 普通 图 形 了 ， 接 下 来 无 论 是 显示 到 有 具体 窗口 中 ， 还 是 进行 其 


他 处 理 ， 痢 与 处 理 普 通 的 图 形 完全 相同 。 
理解 了 各 个 库 的 作用 后 ， 下 面 我 们 开始 安 冯 这些 库 。 


Freetype 在 前 面 安 痛 X 时 已 经 安 猴 ， 接 下 来 只 需 安 痛 Fontconfig 和 
Pango。 由 于 Cairo 依 赖 于 Fontconfig， 而 Pango 又 基于 Cairo 进 行 字体 泻 

所 以 ， 这 里 的 安 搬 顺序 看 上 去 有 点 柯 怪 。 我 们 和 匈 安 儿 Fontconfig， 
中 因 插 播 Cairo， 然 后 才 安 装 Pango。 


安装 Fontconfig 的 命令 如 下 : 


vita@baisheng:/vita/builds tar xvf \ 
../Source/fontconfig-2.10.1.tar.bz2 

vita@baisheng:/vita/build/fontconfig-2.10.1$ ./configure \ 
--prefix=/usr --sysconfdir=/etc --localstatedir=/var \ 
--disable-docs --without-add-fonts 

vita@baisheng:/vita/build/fontconfig-2.10.1$ make install 

vita@baisheng:/vita/build/fontconfig-2.10.1$ find $SYSROOT \ 
-name "*.l]a" -exec rm -f '{}' \; 


6.9.6 ”安装 Cairo 


Cairo 是 一 个 矢量 图 形 库 ，GTK 使 用 其 作为 绘制 后 端 。 换 人 句 话说 ， 
GTK 的 绘制 动作 由 Cairo 完 成 。 看 到 这 里 ， 读 者 可 能 会 非常 困惑 : X 上 的 
应 用 不 是 由 X 服 务 器 负责 绘制 吗 ? 没 错 ， 和 暂且 不 提 我 们 第 8 章 讨论 的 
DRI。 事 实 上 ， 即 使 普通 的 2D 应 用 也 是 可 以 上 自己 绘制 的 ， 只 不 过 ， 应 用 
是 将 内 容 绘制 在 一 个 离 屏 的 区 域 ， 但 是 最 后 还 是 要 请 求 X 服 务 器 将 绘制 
的 内 容 显 示 到 屏幕 上 。 应 用 或 者 将 绘制 的 内 容 复 制 到 X 服 务 器 ， 或 者 使 
用 X 提 供 的 RENDER 扩 展 。 当 然 ， 应 用 也 可 以 将 全 部 绘制 请 求 双 服务 器 
完成 ， 这 束 要 看 其 体 图 形 库 采 用 的 策略 了。 


安装 Cairo 的 命令 如 下 : 


vita@baisheng:/vita/builds tar xvf ../source/cairo-1.12.2.tar.xz 

vita@baisheng:/vita/build/cairo-1.12.2$ ./configure \ 
--prefix=/usr 

vita@baisheng:/vita/build/cairo-1.12.2$ make install 

vita@baisheng:/vita/build/cairo-1.12.2$ find $SYSROOT -name \ 
"*.la" -exec rm -f '{}' \; 


6.9.7 ”安装 Pango 


安装 Pango 的 命令 如 下 : 


vita@baisheng:/vita/builds$ tar xvf ../source/pango-1.30.1.tar.xz 

vita@baisheng:/vita/build/pango-1.30.1$ ./configure \ 
--prefix=/usr --sysconfdir=/etc 

vita@baisheng:/vita/build/pango-1.30.1$ make install 

vita@baisheng:/vita/build/pango-1.30.1$ find $SYSROOT -name \ 
"*.la'" -exec rm -f '{}' \; 


6.9.8 ”安装 libXi 


图 形 库 当然 是 要 接收 用 户 和 输入 的 ，X 输 入 扩展 协议 的 实现 旦 库 


libXi， 安 装 命 令 如 下 : 


vita@baisheng:/vita/builds tar xvf \ 

: RADE 
vita@baisheng:/vita/build/libxXi-1.6.1$ ./configure --prefix=/usr 
vita@baisheng:/vita/build/libXi-1.6.1$ make install 
vita@baisheng:/vita/build/libXi-1.6.1$ find SSYSROOT -name \ 

"*.la" -exec rm -f '{}' \; 


6.9.9 ” 安 痛 GTK 


GTK 的 基本 依赖 已 经 安装 完成 ， 只 差 完成 最 后 一 步 了 ， 安 装 GTK 的 
证 念 如 下 : 


可 


vita@baisheng:/vita/builds tar xvf ../source/gtk+-3.4.4.tar.xz 
vita@baisheng:/vita/build/gtk+-3.4.4$ ./configure \ 
--prefix=/usr --sysconfdir=/etc 
vita@baisheng:/vita/build/gtk+-3.4.4$ make install 
vita@baisheng:/vita/build/gtk+-3.4.4$ find $SYSROOT -name \ 
nx .Lan -exec rm -£f '{}' \; 


全 此 ， 图 形 库 GTK 的 安 儿 过 程 己 经 全 部 完成 ， 旋 者 可 以 
将 /vita/sysroot 目 录 下 的 文件 系统 更 新 到 vita 的 根 文件 系统 了 。 


6.9.10 ”安装 GTK 图 形 库 的 善后 工作 


更 新 了 vita 系 统 的 根 文件 系统 后 ， 在 运行 使 用 GTK 编 与 的 程序 前 ， 
我 们 还 要 在 vita 系 统 上 为 图 形 库 做 一 点 收尾 工作 。 注 意 下 面 两 个 操作 需 
要 在 使 用 安 痛 了 GTK 图 形 库 的 根 文 件 系统 重 司 vita 系 统 后 进行 。 


(1) 为 Pango 创 建 语系 和 模块 对 应 关系 的 文件 


不 同 语系 ， 对 布局 有 不 同 的 要 求 ， 全 世界 有 各 种 各 样 的 语系 ， 如 汉 
语 、 阿 拉 伯 语 、 印 度 语 等 。Pango 采 用 模块 化 的 方式 提供 对 这 些 语 系 的 
支持 。 为 了 提高 效率 ， 在 运行 时 ，Pango 不 会 到 文件 系统 中 解析 具体 的 
模块 ， 查 看 其 文 持 的 语系 ， 而 是 直接 读 取 /etc/pango 目 录 下 的 文件 
pango.modules， 其 中 记录 了 每 个 模块 及 其 文 持 的 语系 。 因 此 ， 我 们 需要 
为 Pango 创 建文 件 pango.modules， 命 令 如 下 : 


root@vita:~# pango-guerymodules > /etc/pango/pango.modules 


下 面 是 创建 的 文件 pango.modules 中 的 户 段 : 


root@vita:~# cat /etc/pango/pango.modules 


/usr/lib/pango/1.6.0/modules/pango-syriac-fc.so \ 
SyriacScriptEngineFc PangoEngineShape PangoRenderFc syrilac:* 


/usr/lib/pango/1.6.0/modules/pango-basic-fc.so \ 
BasicScriptEngineFc PangoEngineShape PangoRenderFc latin:* \ 
Cyrillic:* greek:* armenian:* georgian:* runic:* ogham:* \ 
bopomofo:* cherokee:* coptic:* deseret:* ethiopic:* gothic:* \ 
han:* hiragana:* katakana:* old-italic:* canadian-aboriginal:*\ 
yi:* pbraille:* cypriot:* limbu:* osmanya:* shavian:* linear-b:*\ 


Udgariltic:* glagolitic:* cuneiform:* phoeniclan:* common: 


可 见 ， 模 块 pango-syriac-fc.so 负 责 处 理 叙 利 亚 语 〈Ssyriac) ， 模 块 
pango-basic-fc.so 负 责 处 理 拉 丁 语 (latin) 、 硕 有 参 语 〈greek) ， 包 括 我 们 
的 汉语 (han) 。 


(2) 为 库 GdkPixbuf 创 建 模块 信息 文件 


在 安装 库 GdkPixbuf 时 ， 我 们 看 到 ，GdkPixbuf 使 用 模块 的 形式 文 持 
各 图 形 格式 。 因 此 ， 在 这 个 库 初 始 化 时 ， 需 要 加 载 这 些 模块 。 但 是 这 
模块 存储 在 文件 系统 的 什么 位 置 ， 每 个 模块 又 文 持 什么 图 形 格式 等 ， 诸 
如 此 闫 信息 从 哪里 获取 呢 ? 为 了 提高 加 载 速度 ，GdkPixbuf 没 有 去 再 次 
扫描 每 个 模块 ， 而 是 直接 从 系统 的 一 个 文件 中 读 取 ， 因 此 ， 我 们 需要 为 
GdkPixbuf 创 建 这 个 文件 ， 命 令 如 下 : 


root@vita:~# gdk-pixbuf -query-loaders --update-cache 


gdk-pixbuf-query-loaders 将 到 模块 所 在 的 目录 去 扫 接 各 个 模块 ， 然 


后 将 檬 块 信息 记录 下 来 ， 默 认 情 况 下 ， 记 录 在 下 和 面 这 个 文件 中 : 
/usr/lib/gdk-pixbuf-2.0/2.10.0/loaders.cache 


当然 如 果 将 模块 信息 写 到 其 他 文件 了 ， 需 过 环境 变量 
GDK_PIXBUF MODULE FILE 指 定 出 来 。 


以 vita 系 统 为 例 ， 访 文件 中 记录 的 信息 大 致 如 下 : 


root@vita:~# cat /usr/lib/gdk-pixbuf-2.0/2.10.0/loaders.cache 


"/usr/lib/gdk-pixbuf-2.0/2.10.0/loaders/libpixbufloader-png.so" 
"png" 5 "gdk-pixbuf" "The PNG image format" "LGPL" 

"jmage/png" "" 

SE" Wh 1 

volTPNGNEVmN OZ 100 


6.9.11 ”一 个 简单 的 GTK 和 程序 


最 后 ， 我 们 使 用 一 个 简单 的 程序 来 测试 我 们 的 GTK 是 否 工作 正常 ， 
程序 代码 如 下 : 


hello gtk/hello gtk.c: 
#include <gtk/gtk.h> 
int main(int argc, char *argv[] ) 
人 
GtkWidget *window,; 
GtkWidget *]1lbl; 
gtk init(&argc,; &argv); 
window = gtk window new(GTK WINDOW TOPLEVEL); 


gtk window set default size(GTK WINDOW (window), 300, 200),; 


lbl = gtk label new("Hello GTK!"); 

gtk container add(GTK CONTAINER (window), 1l1bl1),; 
gtk widget show all (window),; 

gtk main(); 


return 0; 


编译 该 程序 的 Makefile 文 件 如 下 : 


hello gtk/Makefile: 


CFLAGS= pkg-config --cflags gtk+-3.0 0 
LDFLAGS= pkg-config --cflags gtk+-3.0° 


hello gtk: hello gtk.o 


install: 
install -m 755 hello gtk $ (DESTDIR) /usr/bin/ 


clean: 
rm -rf hello gtk *:© 


可 见 ， 同 样 是 显示 一 个 简单 的 窗口 ， 使 用 GTK 编 与 就 简单 多 了 ， 那 
些 舌 琐 的 细 贡 已 经 实现 在 如 GTK 等 这 些 图 形 库 中 。 编 详 这 个 程序 ， 并 将 


其 复制 到 vita 系 统 并 运行 ， 步 又 与 程序 hello_x 完 全 相同 。 


如 果 GTK 安 装 正 常 ， 在 vita 系 统 上 我 们 将 看 到 类 似 图 6-29 所 示 的 输 
Hi 
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图 6-29 一 个 简单 的 GTK 程 序 


但 是 ， 我 们 及 现 厂 焕 来 了 : 文本 并 没有 显示 出 来 ， 而 是 显示 了 一 
串 “ 方 框 ”*"。 如 果 对 字体 泻 染 有 一 些 经 验 束 会 知道 ， 这 里 所 谓 的 “ 方 框 ” 是 
在 找 不 到 字体 时 使 用 的 默认 的 一 个 特殊 字 从 。 


观察 终端 上 Pango 输 出 : 


root@vita:~# hello gtk & 


(hello gtk:249): Pango-WARNING **: failed to choose a font, expect ugly output. 
engine-type='PangoRenderFc', script='l]atin' 


Pango 的 输出 也 印证 了 我 们 的 推论 ，Pango 明 确 提 示 ， 找 不 到 匹配 的 
字体 。 


读者 可 能 会 再 次 陷入 了 困惑 中 :在 测试 hello_x 时 ， 为 什么 hello x 就 
可 以 找到 字体 呢 ? 下 一 节 ， 我 们 束 来 讨论 这 个 问题 ， 并 为 vita 系 统 安 装 
字体 。 


6.10 ”安装 字体 


对 于 基于 Xlib 编 号 的 程序 ， 一 般 简 单 的 字符 使 用 X 中 的 内 置 字 体 残 
可 以 应 付 了 。X 的 内 置 字 体 在 libXfont 中 : 


libXfont-1.4.5/src/built-ins/fonts.c: 


static conet char fle 6x13[] = 
WR a TS 
ED 
NO SUL ss TEEDSE: Mla EULAd! se TZ Mil LOOG 
ER 


其 中 名 e_6x13 中 记录 的 融 是 简单 的 点 阵 字体 ， 义 称 位 图 字体 ， 蛙 然 
这 个 内 阐 的 点 阵 字 体 是 把 每 一 个 字符 都 分 成 6x23 个 点 ， 然 后 用 每 个 点 的 
虚实 来 表示 字符 的 轮廓 。 


这 也 是 为 什么 前 面 在 没有 安 竣 字体 的 情况 下 ， 使 用 Xlib 编 写 的 例子 
可 以 显示 字符 的 原因 。 但 是 既然 有 内 置 的 字体 ， 那 为 什么 使 用 GTK 的 程 
序 不 能 显示 字符 呢 ? 原因 是 GTK 程 序 的 衬 体 是 在 各 户 冰 绘制 的 ， 客 户 跨 
绘制 完成 后 ， 将 字形 位 图 传 给 X 服 务 硕 。 而 GTK 中 并 没有 像 libXfont 那 样 
内 症 了 字体 ， 所 以 如 果 系 统 中 没有 安 寂 字体， 当然 应 用 束 找 不 到 字体 
了 。 因 此 ， 我 们 需要 安 冯 字体。 


字体 的 安装 非 铝 简单 ， 直 接 把 字体 文件 复制 到 相关 的 目 孙 下 即 可 。 
但 是 安装 在 哪个 目录 下 呢 ? 表面 我 们 已 经 看 到 ，Linux 使 用 Fontconfig 寻 


找 字 体 ， 因 此 这 个 问题 要 问 Fontconfig。 没 错 ，Fontconfig 在 其 配置 文件 
中 明确 指明 了 其 寻找 字体 文件 的 目录 : 


/vita/sysroot/etc/fonts/fonts.contf: 

<|-- EONnt directory Tl1i8gt -~» 
<dir>/usr/share/fonts</dir> 
<dir prefix="xdgqg">fonts</dir> 


<!-- the following element will be removed in 七 ne future --> 
<dir>~/.fonts</dir> 


这 里 ， 我 们 使 用 文 果 驿 字体 ， 并 将 其 安装 到 vita 系 统 
的 /usr/share/fonts 目 录 下 ， 命 令 如 下 : 


root@vita:~# mkdir -p /usr/share/fonts/ 

root@baisheng:~# Scp \ 
/usr/share/fonts/truetype/woay/woqy-microhei.ttc 、 
192.168.56.2: /usr/share/fonts/ 


安装 完 字体 后 ， 再 次 执行 gtk_hello， 就 会 发 现 字 符 不 再 是 一 个 一 个 


的 “ 方 枉 >” 了， 如 图 6-30 所 示 。 
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图 。 606-30 安装 字体 后 的 GTK 程 厅 


而 且 ， 可 以 在 vita 系 统 的 /var/cache/fontconfig 目 录 下 看 到 类 似 如 下 的 
Fontconfig 用 于 快速 搜索 字体 的 缓存 文件 : 


root@vita:~# ls /var/cache/fontconfig/ 

3830d5c3ddfd5cd38a049b759396e72e-l]le32d4 .cache-3 
99e8ed0e538f840cS5s65b6é6ed5sdad60d56-le32d4 .cache-3 
7Tef2298fde4lcc6eeb7af42e48b7d293-le32d4.cache-3 


全 此 ， 基 础 的 多 形 环 境 已 经 安 骤 完毕 ， 可 以 运行 基本 的 共有 疼 形 界 


面 的 程序 了 。 但 是 我 们 也 看 到 ， 这 个 图 形 环 境 是 个 梨 坏 境 ， 没 有 任务 

条 、 没 有 果 面 背景 。 应 用 程序 的 窗口 也 是 个 裸 窗口 ， 没 有 标题 柱 、 没 有 
边框 ， 不 能 最 大 化 和 最 小 化 、 不 能 关闭， 也 不 能 移动 ， 其 至 当局 动 多 个 
应 用 时 ， 我 们 也 没有 办 法 和 在 多 个 应 用 间 切 换 等 。 这 些 问 题 ， 我 们 留 给 下 


本 
Ls 


第 7 章 ”构建 果 面 环 贰 


计算 机 领域 中 的 桌面 环境 (Desktop Environment) 其 实 是 一 种 比喻 
的 次 法 ， 即 图 形 用 户 界 面 融 像 物理 书 困 一 梓 ， 其 上 可 以 放置 文件 严 、 文 
档 等 。 困 和 面 最 初 用 来 特 指 个 人 计算 机 (PC) ， 但 是 现在 不 只 个 人 计算 
机 有 图 形 界 和 面 环境 ， 服 务 融 、 岁 入 式 设备 等 基本 部 提供 果 和 面 环 境 。 果 面 
环境 包括 禄 口 官 理 桌 、 任 务 条 等 基本 组 件 ， 除 了 这 些 基 本 的 组 件 外 ， 有 
的 豆 面 环境 还 捉 供 文件 过 理 硕 、 控 制 面板 等 。 


果 面 环境 是 操 作 系 统 中 人 机 交互 的 关键 部 分 ， 理 解 它 的 基本 运作 原 
理 ， 无 论 是 对 理解 操作 系统 ， 还 是 对 开发 应 用 程序 ， 都 有 极 大 的 帮助 。 
我 们 处 于 这 样 一 个 退 求 个 性 的 年 代 ， 无 论 古 用 于 消费 类 电子 设备 的 移动 
系统 ， 还 是 用 于 PC 的 中 规 中 窍 的 更 面 系统 ， 人 们 都 己 不 再 满足 于 千 忆 
一 律 的 条 面 。 打 造 一 个 全 新 的 个 性 化 条 面 ， 绝 不 只 是 俘 留 在 更 改 个 背景 
图 、 换 个 主题 这 个 层面 ， 我 们 需要 更 大 的 革新。 但 是 如 朱 对 果 面 环境 的 
基本 诛 理 都 不 其 了 解 ， 那 义 何 谈 去 开 肥 打造 共有 创 和 霹 性 的 用 户 交 互 。 


因此 ， 在 本 章 中 我 们 带领 读者 从 头 构建 一 个 基本 的 桌面 环境 ， 包 括 
窗口 管理 器 、 任 务 条 以 及 一 个 显示 桌面 背景 的 组 件 。 为 了 使 读者 更 能 深 
刻 体会 X 的 客户 /服务 器 模型 ， 窗 口 管理 器 基于 Xlib 编 写 ， 而 任务 条 等 组 
件 则 展示 了 使 用 GTK 图 形 库 的 编程 方法 。 


十 人 
结合 


限于 访 幅 ， 我 们 没有 将 全 部 源 代码 全 部 贴 到 书 中 ， 所 以 请 读者 
随 书 光盘 中 附带 的 源 代码 进行 阅读 。 男 外 ， 本 章 虽 然 涉 及 Xlib 和 GTK 编 
程 ， 但 是 为 了 不 干扰 主线 一 一 构建 果 面 环境 ， 我 们 不 会 过 多 讨论 它们 的 
编程 ， 其 中 涉及 的 API， 如 有 必要 请 参考 Xlib 和 GTK 各 自 的 参考 手册 。 





7.1 窗口 管理 器 


本 质 上 ， 和 窗口 束 是 显示 器 上 对 应 的 一 块 区 域 。 对 于 一 个 运行 多 任务 
的 操作 系统 来 讲 ， 在 一 个 有 限 的 屏幕 上 可 以 同时 存在 多 个 窗口 ， 因 此 ， 
用 户 希 望 多 个 窗口 之 间 可 以 协调 布局 和 平 共 享 同一 个 屏幕 。 可 以 将 特定 
窗口 切换 为 当前 活动 窗口 ， 可 以 按 需 改变 窗口 尺寸 ， 可 以 最 大 化 、 最 小 
化 以 及 关闭 窗口 。 但 是 又 的 设计 哲学 是 只 提供 机 制 ， 不 提供 策略 ，X 服 
务 器 只 提供 窗口 操作 相关 的 函数 ， 但 不 管 如 何 去 操 作 窗 口 。 于 是 诞生 了 
另外 一 个 特殊 的 X 应 用 : 窗口 管理 器 


7.1.1 基本 原理 


1.X 的 窗口 


X 将 所 有 窗口 组 织 为 一 哥 树 。X 服 务 占 局 动 后 ， 将 默认 创建 一 个 竺 


站， 这 个 窗口 元 满 整 个 屏蔽， 作为 整个 窗口 树 的 根 ， 称 为 根 窗口 (Root 
Window) ， 所 有 应 用 的 项 层 窗口 (Top-level Window) 都 是 根 窗 口 的 子 
窗口 。 


假设 在 X 中 运行 两 个 应 用 A 和 B，A 包 含 2 个 窗口 ，B 应 包含 3 个 窗 


口 ， 窗 口 之 间 的 布局 如 图 7-1 所 示 。 


Root Window 
Top Window A 


Top Window B 
SUbwIiNdow x 


SuUbwiNndow a 


Subwindow y 


SuUbwindow b 


SUbwIiNdow c 





图 7-1 窗口 布局 示意 图 


它们 之 间 的 树 形 关系 如 图 7-2 所 示 。 


图 7-2 窗口 树 形 关系 示意 图 


窗口 管理 需 仅 管理 应 用 的 项 层 窗口 ， 即 如 图 7-2 中 的 "Top Window 


A" 和 "Top Window B"。 一 个 应 用 可 能 有 多 个 顶层 窗口 ， 除 了 应 用 的 主 窗 
中 之 外 ， 对 话 框 一 般 也 是 一 个 顶层 窗口 。 而 对 于 顶层 窗口 的 于 窗口 ， 则 
由 应 用 自己 官 理 。 


在 第 6 章 中 ， 我 们 看 到 ， 无 论 是 基于 Xlib 的 程序 ， 还 是 使 用 GTK 编 

写 有 的 程序 ， 在 没有 窗口 省 理 占有 的 情况 下 ， 它 们 的 窗口 部 以 “又 闫 ”示人 人， 

只 是 一 个 “ 贸 ” 窗 口 。 一 个 典型 的 加 面 应 用 的 窗口 ， 一 般 而 言 ， 包 括 一 个 
标题 栏 ， 标 题 栏 上 还 可 能 显示 窗口 的 名 称 、 最 大 化 、 最 小 化 和 关闭 按 

钮 。 另 外 ， 窗 口 一 般 还 有 一 个 边框 。 用 户 可 以 通过 标题 栏 移动 窗口 ， 可 
以 在 边框 处 拖 动 甩 标 改变 窗口 尺寸 ， 可 以 分 列 通 过 最 大 化 、 最 小 化 和 关 
闭 按钮 最 大 化 、 最 小 化 、 关 闭 窗口 。 这 些 组 件 除 了 具备 功能 外 ， 还 具备 
美化 的 作用 ， 比 如 可 以 设置 窗口 边框 的 颜色 、 阴 影 效 果 等 ， 因 此 ， 它 们 
也 被 称 为 窗口 装饰 。 


显然 ， 窗 口 汪 饰 不 应 该 由 各 个 应 用 人 负 贡 ， 暂 且 不 所 草 复 穷 动 ， 辕 单 
一 任 性 束 古 个 大 问题 。 如 果 任 由 应 用 目 己 绘制 ， 最 后 将 导 人 致 究 口 标 匮 栏 
等 交 饰 五 化 人 门 。 因 此 ， 在 X 中 ， 将 窗口 痛 饰 提取 为 公共 部 分 ， 由 窗口 
常理 融 统 一 负 贡 。 通 币 的 实现 方式 是 : 窗口 党 理 融 创建 一 个 窗口 ， 我 们 
称 这 个 窗口 为 Frame， 作 为 根 窗口 的 子 窗口 ， 但 是 作为 应 用 的 顶层 窗口 
的 父 窗 口 。 其 他 疤 饥 ， 或 者 二 接 绘 制 在 Frame 窗 口上 ， 或 者 创建 新 的 次 
饰 窗 口 ， 但 是 这 些 装饰 窗口 也 作为 Frame 的 子 窗 口 ， 本 和 章 我 们 开发 的 窗 


口 管理 需 采 用 后 者 。 应 用 的 顶层 窗口 和 Frame 窗 口 之 间 的 关系 如 图 7-3 所 


和 小 。 
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图 7-3 顶层 窗口 和 Frame 究 口 的 关系 


3. 拦 截 事件 


X 服 务 帮 维护 一 个 事件 队列 ， 在 该 队列 中 按 顺 序 你 存 看 友 生 的 各 个 
事件 ， 并 周期 地 分 友 给 应 用 。 每 个 应 用 可 以 选择 对 友 生 在 东 些 禄 口上 的 
哪些 事件 感 兴趣 ， 如 末 多 个 应 用 对 同一 个 事件 感 兴趣 ，X 服 务 右 将 复制 
该 事件 的 多 个 副本 ， 并 将 其 分 友 给 各 个 对 其 感 兴趣 的 应 用 ， 如 图 7-4 所 


和 修 。 
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图 7-4 事件 队列 


Xlib 提 供 了 函数 XSelectInput， 应 用 程序 可 以 使 用 该 孙 数 选择 接收 指 
定 窗 口 的 事件 ， 其 函数 原型 如 下 : 


XSelectInput (Display *display, Window w, long event mask) 


其 中 参数 w 表 示 接 收发 生 在 窗口 w 上 的 事件 ，event_mask 表 示 对 哪 
些 事件 感 兴 趣 ， 如 ButtonPressMask 表 示 和 希望 接收 窗口 w 的 ButtonPress 事 
件 。 


在 这 些 事件 撼 码 中 ， 有 一 个 比较 特殊 一 SubstructureRedirectMask， 
其 含义 是 : 当 某 个 应 用 选 定 了 某 个 禄 口 的 SubstructureRedirectMask 时 ， 
该 窗口 的 子 窗口 《Substructure) 及 进 给 X 服 务 左 的 MapRequest、 


ConfigureRequest 和 CirculateRequest 三 类 请 求 ， 都 将 被 重 定 问 给 这 个 应 


用 ， 这 就 是 义 的 "Substructure Redirection" 机 制 |。 


窗口 官 理 右 恰恰 利用 了 这 个 机 制 ， 对 根 窗口 选择 了 
SubstructureRedirectMask， 从 而 惟 获 了 应 用 的 项 层 窗 口 的 请 求 。 其 中 最 
关键 的 是 MapRequest， 在 窗口 请 求 X 服 务 磺 显示 时 ， 其 将 同 X 服 务 左 友 
送 MapRequest 请 求 。 在 截获 了 MapRequest 后 ， 窗 口 管 理 器 创建 Frame 窗 
口 ， 作 为 根 窗口 的 子 窗 口 ， 然 后 蜡 疲 陈仓 ， 将 应 用 的 顶层 窗口 从 根 窗口 
脱离 ， 而 将 其 作为 Frame 窗 口 的 子 窗口 ， 同 时 也 创建 其 他 窗口 疙 饰 。 都 
伪装 好 后 ， 窗 口 官 理 右 再 以 Frame 徐 口 的 对 份 ， 请 求 X 服 务 右 显示 Frame 
窗口 。 应 用 的 项 层 窗口 作为 Frame 窗 口 的 子 窗口 ， 当 Frame 窗 口 得 以 显示 
后 ， 其 目 然 也 被 显示 。 在 茶 种 意义 上 ， 窗 口 管 理 需 通过 Frame 窗 口 控制 
了 应 用 的 顶层 窗口 ， 从 而 达到 管理 它们 的 目的 。 


在 应 用 的 顶层 窗口 作为 Frame 窗 口 的 子 窗口 后 ， 窗 口 管理 占 还 是 要 
关心 它们 发 送 给 X 服 务 器 与 窗口 管理 相关 的 请 求 ， 因 此 ， 如 同 设 置 根 窗 
口 的 SubstructureRedirectMask， 窗 口 管 理 器 也 需要 设置 Frame 窗 口 的 


SubstructureRedirectMask 。 


不 知 谈 者 是 售 考 碟 过 这 样 一 个 问题 : 既然 X 服 务 划 将 其 他 应 用 的 
MapReduest 请 求 重 定 同 给 窗口 管理 希 ， 那 么 窗口 管理 右 同 样 也 作为 X 服 
务 癸 的 一 个 客户 程序 ， 它 也 需要 癌 X 服 务 右 发 送 MapRequest 请 求 ， 比 如 


请 求 显 示 Frame 等 痛 饰 窗口 。 如 此 这 役 ，X 服 务 夯 总 不 是 将 窗口 管理 大 


发 送 给 它 的 请 求 再 重 定 同 给 窗口 管理 器 ?如 此 往复 ， 岂 不 是 形成 了 有 死 循 
环 ? 


为 此 ， 窗 口 提供 了 一 个 属性 : override_redirect。 如 果 窗 口 的 这 个 属 
性 值 为 True， 则 其 明确 告知 X 服 务 亏 目 己 不 需要 窗口 管理 规 的 管理 ， 又 
服务 器 怠 不 会 将 这 个 窗口 的 请 求 重 定 同 给 窗口 管理 器 。 我 们 第 用 的 鼠标 
右键 来 单 隋 是 一 个 典型 的 将 属性 override_redirect 设 置 为 True 的 窗口 。 
此 ， 窗 口 管 理 需 在 创建 Frame 等 闻 饰 窗口 时 ， 可 以 通过 将 它们 的 这 个 属 
性 设置 为 True 来 解决 我 们 刚刚 谈 到 的 死 循环 问题 。 事 实 上， 即使 不 设置 
这 个 属性 ， 也 不 会 形成 死 循 环 ，X 的 开 及 者 已 经 考虑 了 这 个 问题 。 


窗口 管理 喜 除 了 关心 应 用 的 顶层 窗口 的 SubstructureRedirectMask 涉 
及 的 请 求 外 ， 另 外 还 要 获得 它们 的 茶 些 通知 事件 。 其 中 一 个 殉 是 
UnmapNotify， 在 收 到 这 个 通知 后 ， 窗 口 管 理 规 需要 清理 所 有 为 该 窗口 
创建 的 对 象 ， 包 括 窗 口 北 饰 等 。 所 以 除了 事件 掩 人 码 
SubstructureRedirectMask 外 ， 窗 口 管 理 器 还 要 选择 根 窗口 和 Frame 和 窗口 
的 事件 掩 但 SubstructureNotifyMask。 


在 一 个 标准 的 对面 环 境 下 ， 存 在 多 个 不 同 的 应 用 程序 ， 除 了 普通 的 
应 用 程序 外 ， 还 有 构成 基本 时 面 环境 的 组 件 ， 如 任务 条 等 。 而 且 ， 每 个 
应 用 的 窗口 布局 全 略 不 尽 相 同 ， 比 如 普通 的 X 应 用 一 般 市 有 窗口 竣 饰 ， 


但 是 我 们 有 看 到 过 构成 果 面 环境 的 任务 条 效 饰 看 标题 住 ， 并 且 标 题 栏 上 
有 最 大 化 /最 小 化 以 及 关闭 等 按钮 吗 ? 显然 ， 这 闫 组件 不 需要 窗口 竣 
饰 。 我 们 还 以 任务 条 为 例 ， 在 东 些 果 面 环境 上 ， 任 务 条 可 以 放 症 在 屏 姑 
的 上 方 、 下 方 、 左 侧 以 及 右 侧 。 再 比如 ， 对 话 框 的 窗口 逆 饰 中 通 钊 是 没 
有 最 大 化 按钮 的 。 


显然 ， 窗 口 礼 理 右 需要 获得 贸 口 的 相关 信息 ， 才 能 根据 这 些 信息 决 
定 如 何 为 这 些 窗 口 在 同一 个 屏 大 上 协调 的 布局 以 及 如 何 痉 饰 这 些 和 窗口。 
为 此 ，X 近 供 了 多 种 窗口 间 通 信 的 机 制 ， 属 性 〈Property) 是 窗口 官 理 卉 
和 应 用 的 窗口 之 间 使 用 的 主要 通信 机 制 |。 


X 稚 认定 义 了 一 些 属性 ， 这 些 属 性 在 窗口 管理 耸 规 范 中 约定 ， 但 是 
应 用 也 可 以 目 定 义 属性 。 在 Xx 中， 每 个 贸 口 部 附 看 一 个 属性 表 ， 表 中 每 
一 行 大 致 融 是 属性 的 名 字 和 其 对 应 的 值 。 应 用 可 以 设置 目 己 创建 的 窗口 
的 属性 ， 也 可 以 读 取 或 者 改变 其 他 应 用 的 窗口 的 属性 ， 从 而 达到 不 同窗 
口 间 通信 的 目的 。 


属性 你 存在 Xx 服务 右 总。 每 个 属性 部 有 一 个 名 字 ， 为 了 便于 使 用 属 
性 ， 属 性 的 名 字 是 可 读 性 更 好 的 ASCII 字 符 串 而 不 是 一 串 数字 。 然 而 ， 
如 各 应 用 程序 使 用 属性 的 名 字 引 用 属性 ， 努 作 要 通过 套 接 字 传 递 属性 的 
名 字 给 X 服 务 融 。 但 是 字符 串 的 数据 量 明显 大 于 一 个 固定 长 度 的 整数 ， 
而 且 ， 还 有 一 氮 ， 字 符 串 的 长 度 是 可 变 的 ， 也 给 协议 的 实现 增加 了 复杂 
度 。 为 此 ，X 义 为 每 个 属性 起 了 个 小 名 ， 这 个 小 名 是 一 个 整 型 数 ， 与 属 


性 的 名 季 间 是 一 一 对 应 的 天 系 ，X 将 其 称 为 Atom， 在 应 用 与 服务 此 之 间 
通信 时 ， 使 用 这 个 小 名 而 不 是 可 变 长 度 的 字符 串 。 


属性 对 应 的 Atom 是 动态 创建 的 ， 当 X 服 务 器 局 动 时 ， 会 为 一 些 属性 
创建 Atom， 其 他 则 是 在 首次 使 用 时 创建 。Xlib 提 供 了 函数 XIntemAtoms 
和 XInternAtom 用 来 获取 属性 名 对 应 的 Atom。 这 两 个 函数 基本 相同 ， 只 
不 过 一 个 是 “批发 >， 一 个 是 “零售 "， 相 对 于 XInternAtom 而 言 ， 
XInternAtoms 减 少 了 应 用 和 服务 兢 之 间 的 通信 次 数 。XInternAtoms 函 数 
原型 如 下 : 


Status XInternAtoms (Display *display, char **names, int count, 
Bool only if exists, Atom *atoms return) 


其 中 ， 参 数 names 包 含 要 转换 的 属性 的 名 称 ，count 表 示 转 换 的 数 
量 ， 转 换 后 的 Atom 存 储 在 数组 atoms_return 中 。 如 果 属 性 的 Atom 已 经 存 
在 了 ， 则 直接 获取 其 信 即 可 ， 人 否则 ， 有 是 售 为 属性 创建 Atom 有 要 根据 参数 
only_if_exists 的 值 而 定 。 只 有 only_if_exists 为 False 时 ， 才 创建 Atom。 


Xlib 提 供 了 函数 XGetWindowProperty 和 和 XChangeProperty 来 读 写 窗口 
的 属性 ， 我 们 以 XGetWindowProperty 为 例 来 讨论 一 下 如 何 读 取 窗 口 属 
性 ， 访 函数 原型 如 下 : 


1nt XGetWindowProperty (Display *display, Window w, Atom property, 
long long offset, long long length, Bool delete, 
Atom req type, Atom actual type return, 
int *actual format return, unsigned long *nitems return, 
unsigned long *bytes after return, 
unsigned char **prop return) 


1) 参数 property 指 的 吏 是 准备 读 取 的 窗口 w 的 属性 ， 根 据 该 参数 头 
型 也 印证 了 X 没 有 使 用 属性 的 名 字 ， 而 古 使 用 了 占用 子 市 数 更 少 的 属性 


的 Atom。 


2) 属性 的 值 可 能 是 一 个 数组 ， 比 如 窗口 管理 器 规范 EWMH 规 定 属 
性 NET_WM_WINDOW_TYPE 信 瓯 是 一 个 Atom 数 组 。 数 组 驶 是 在 内 存 
中 的 一 块 缓冲 区 了 ， 从 这 个 角度 ， 束 比较 容易 理解 参数 long_offset 和 
long_length 的 意义 了 。XGetWindowProperty 为 获取 窗口 属性 提供 了 更 大 
的 灵活 性 ， 调 用 者 可 以 通过 参数 long_offset 和 ]long_length 读 取 存 储 属性 
值 的 缓冲 区 中 指定 偏 移 处 的 指定 长 上 度 的 值 ， 这 两 个 参数 均 以 32 位 为 时 


位 。 


3) 在 读 取 窗口 的 属性 后 ， 可 以 通过 参数 delete 告 诉 X 服 务 器 是否 删 
除 窗口 的 这 个 属性 ， 这 也 是 为 了 节省 内 存 空间 考虑 。 


4) XGetWindowProperty 人 允许 调用 者 传递 参数 req_type 告 诉 服 务 右 读 
取 的 属性 值 的 类 型 ， 典 型 的 包括 XA_ATOM、XA_CARDINAL 以 及 
XA_STRING 等 ， 分 列表 示 属 性 的 值 为 Atom、32 位 整数 以 及 字 从 品类 
型 。 当 不 确定 属性 的 值 的 类 型 和 时， 可 以 传递 AnyPropertyType 给 X 服 务 


研 ， 由 X 服 务 需 将 实际 的 类 型 通过 参数 actual_type_returmm 返 回 给 应 用 程 


ys 


5) XGetWindowProperty 收 到 X 服 务 右 的 返回 值 后 ， 将 动态 申请 一 
块 内 存 ， 保 存 讯 取 到 的 属性 的 值 ， 并 使 用 指针 prop_return 指 问 这 块 内 
和 仓 。 婚 然 古 动态 申请 的 内 存 ， 使 用 后 需要 用 Xlib 的 水 数 XFree 将 其 释 
放 。 


6) XGetWindowProperty 将 实际 读 取 的 属性 的 值 的 类 型 保存 在 
actual_type_return 中 ; 将 实际 读 取 的 属性 的 值 的 格式 保存 在 
actual_format_returmn 中 ， 属 性 的 值 的 格式 可 以 是 8、16 或 32 三 者 之 一 ， 分 
列 代 表 char、short 以 及 long; 如 果 读 取 操 作 仪 读 取 了 你 存 属性 值 的 绥 冲 
区 中 的 部 分 数据 ， 则 XGetWindowProperty 将 保存 属性 值 的 缓冲 区 中 剩余 
的 尚未 读 取 的 字 节 数 存储 在 bytes_after_return 中 ; nitems_return 中 记录 的 
是 实际 读 取 的 属性 的 数量 。 


5. 捕 捉 窗口 


我 们 设想 这 样 一 种 场景 ， 如 图 7-5 所 示 ， 假 设 X 服 务 上 右上 已 经 在 运行 
两 个 X 应 用 A 和 B，A 征 当前 活动 的 应 用 ，B 和 是 非 活动 应 用 。B 有 两 个 顶层 
窗口 ， 际 了 主 窗 口外 ， 打 开 文件 对 话 框 也 是 一 个 顶层 究 口 ， 同 时 这 个 对 
话 框 也 是 应 用 B 的 临时 〈transient) 窗口 。 正 如 其 字面 意义 所 言 ， 所 谓 
的 "transient" 束 是 临时 的 、 短 暂 的 ， 征 一 个 相对 的 概念 ， 是 相对 于 未 一 


窗口 而 言 的 。 举 个 例子 ， 如 某 些 应 用 的 “打开 文件 对话 框 ， 是 一 个 典型 
的 临时 窗口 。 但 是 如 果 某 个 应 用 的 主 窗口 就 是 一 个 对 话 框 ， 那 么 这 个 对 
话 框 就 不 是 临时 窗口 了 。 
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Open Files 


二 
Open Files -一 


图 7-5 切换 应 用 


当 用 户 想 要 将 应 用 B 切 换 为 当前 活动 的 应 用 时 ， 常 用 的 方法 之 一 十 
使 用 鼠标 点 击 B 应 用 的 窗口 。 这 时 窗口 管理 器 拦截 鼠标 事件 ， 然 后 请 求 
X 服 务 器 重新 排列 窗口 栈 序 ， 具 体 细 节 见 7.1.11 节 。 总 之 窗口 管理 器 必 
须要 能 接收 到 鼠标 事件 ， 如 采 接 收 不 到 鼠标 事件 ， 一 切 都 无 从 谈 起 。 


Frame 等 装饰 窗口 是 窗口 管理 器 创建 的 ， 因 此 窗口 管理 器 可 以 目 如 


控制 ， 比 如 我 们 可 以 设置 Frame 窗 口 的 事件 掩 码 中 包含 
ButtonPressMask。 而 对 于 应 用 的 顶层 窗口 ， 我 们 肯定 不 能 过 多 干涉 。 但 
征 ， 我 们 又 不 能 强制 用 户 一 定 要 点 击 到 Frame 窗 口上 未 家 应 用 顶层 窗口 
履 关 的 地 方 。 而 且 一 般 情况 下 ， 用 户 一 定 是 点 击 到 顶层 窗口 或 者 其 子 窗 
口上 ， 而 不 是 Frame 窗 口上 ， 毕 竟 Frame 窗 口 未 被 应 用 顶层 窗口 遮挡 的 区 
域 除了 标题 栏 外 ， 只 有 很 小 的 边框 了 ， 也 就 是 说 能 被 点 击 到 的 区 域 很 


小 。 


根据 X 的 事件 传 揪 机制， 如 果 友 生 在 一 个 窗口 上 的 事件 未 被 处 理 ， 
在 该 窗口 没有 设置 茶 止 事件 继续 癌 其 父 窗口 传播 的 情况 下 ， 事 件 将 沿 着 
宰 口 树 一 直 回 痢 树 的 根部 传播 。 很 少 有 其 有 图 形 界 面 的 程序 不 处 理 鼠 标 
事件 ， 售 则 就 没有 任何 意义 了 ， 也 束 是 说 ， 鼠 标 事 件 几乎 永远 传递 不 到 
Frame 窗 口 ， 都 被 应 用 自身 消化 了 。 如 果 不 能 接收 鼠标 事件 ， 更 何 谈 激 
活 窗 口 了 了。 那么 怎么 解决 这 个 问题 呢 ? 


X 提 供 了 耻 标 捕捉 机 制 ， 其 义 分 为 主动 捕捉 和 被 动 捕 提 。 以 图 7-5 为 
例 ， 假 设 万 外 一 个 应 用 以 被 动机 制 捕捉 应 用 B 的 顶层 窗口 时 ， 当 用 户 在 
应 用 B 的 顶层 窗口 范围 内 按 下 鼠标 时 ， 将 激活 捕 换 机 制 ，X 服 务 左 将 器 
标 事件 不 再 按照 正常 的 事件 传播 路 径 传 播 了 ， 而 是 转 有 友 给 捕 换 应 用 也 的 
顶层 窗口 的 X 应 用 。 窗 口 管理 带 恰 恰 是 利用 了 这 个 机 制 ， 捕 换 非 活动 窗 
口 ， 从 而 捕获 这 些 窗口 的 时 标 事 件 ， 实 现 不 同 应 用 同 的 切换 。 


Xlib 提 供 的 用 于 捕捉 的 函数 是 XGrabButton， 其 原型 如 下 : 


人 TaDpBULELoOnIAUDILISDPDLaYy *display, unsiligned int button, 


unsigned int modifiers, Window grab window, Bool owner events, 
unsigned int event mask, int pointer mode, 
int keyboard mode, Window confine to, Cursor cursor) 


其 中 各 个 参数 意义 如 下 : 
令 button 表 示 捕 捉 鼠 标 哪 个 键 ， 比 如 是 捕捉 左 键 还 是 捕捉 右键 等 。 


令 modifiers 表 示 是 任 要 求 同 时 按 下 键盘 此 个 控 键 才能 捕捉 ， 也 束 
是 我 们 所 说 的 修饰 键 。 


令 event_mask 表 示 捕 捉 事 件 的 掩 码 ， 即 捕捉 什么 事件 ， 是 捕捉 按 下 
鼠标 事件 还 是 捕捉 释放 忌 标 事件 等 。 


仿 confine_to 表 示 是 合十 捕捉 的 区 域 限制 在 祭 个 范围 ， 也 束 是 说 ， 
当 事 件 友 生 时 ， 只 有 很 标 在 这 个 区 域 才 可 以 捕捉 。 


令 cursor 表 示 当 捕 所 友 生 时 ， 是 合 裔 要 使 用 特定 的 鼠标 指针 形状 ， 
以 给 用 户 一 个 及 好 的 提示 。 


令 owner_events 主 要 是 用 于 当 应 用 捕捉 目 身 创建 的 窗口 时 使 用 ， 与 
窗口 管理 器 无 关 。 


令 oD window 是 最 核心 的 一 个 参数 ， 理 解 了 这 个 参数 就 基本 
理解 了 整个 函数 ， 这 个 参数 束 是 表明 当 忌 标 按键 有 友 生 在 哪个 窗口 时 进 
捕 欣 。 


令 最 后 来 解释 参数 pointer_ mode。 我 们 举 个 例子 来 解释 这 个 参数 ， 
假设 我 们 将 捕捉 比 喻 为 历 ， 那 么 捕捉 其 他 窗口 的 应 用 就 是 江 洋 大 资 ， 被 
捕捉 的 窗口 所 属 的 应 用 就 是 受害 人 。 不 知 读者 是 否 有 这 样 的 疑问 : 当 江 
洋 大 盗 将 事件 狠 走 后 ， 党 害 人 还 能 售 失 而 复 得 。X 再 次 将 这 个 蛇 略 性 的 
问题 抛 给 了 应 用 自己 来 决定 。X 提 供 了 两 种 捕捉 模式 : 异步 模式 和 同步 
模式 。 当 使 用 异步 模式 时 ， 受 害 人 不 要 心 存 任 何 侥 对 了 。 而 当 使 用 同步 
模式 时 ， 在 取消 对 一 个 窗口 的 捕 近 行为 后 ， 如 来 江 洋 大 盗 民 心 肥 现 ，X 
则 会 给 他 一 次 浪子 回头 的 机 会 。 江 洋 大 盗 可 以 调用 Xlib 的 函数 
XAllowEvents 放 行 这 个 被 截获 的 事件 ， 这 样 受害 者 束 可 以 失而复得 了 ， 
但 是 可 能 不 是 那么 新 鲜 了 ， 要 晚 一 点 。 

6.save-set 

笔者 没有 找到 一 个 恰当 一 点 的 词 来 表达 save-set 这 个 术语 ， 所 以 我 
们 就 直接 用 喘 文 了 。 根 据 其 名 字 束 可 以 猿 出 这 是 一 个 集合 了 。 但 是 这 个 
集合 是 做 什么 的 呢 ? 

我 们 设想 这 样 一 种 情况 ， 当 窗口 管理 器 异常 终止 时 ， 窗 口 管 理 器 创 
建 的 Frame 等 装饰 窗口 自然 也 被 销毁 。 销 毁 这 些 窗口 本 喘 没 有 问题 ， 但 
是 它们 带 来 了 副作用 : 作为 Frame 窗 口子 窗口 的 应 用 的 窗口 也 被 销毁 
这 显然 不 是 我 们 硕 望 看 到 的 。 


每 个 X 应 用 都 有 一 个 save-set， 其 中 保存 的 就 是 就 是 窗口 的 列表 。 当 


应 用 异 第 断 开 到 X 服 务 右 的 连接 时 ，X 服 务 霹 将 首先 检 答 应 用 的 Save- 
set， 并 安排 根 窗 口 领 养 save-set 中 的 窗口 ， 从 而 避免 了 在 Save-set 中 的 这 
些 窗 口 极 销毁 。 


前 面 担 到 的 窗口 管理 夯 的 问题 恰恰 可 以 用 这 个 方 读 解 决 。 每 当 管 理 
一 个 窗口 时 ， 窗 口 管理 并 承 可 以 调用 Xlib 的 函数 XAddToSaveSet 将 其 加 
入 到 目 己 的 save-set 中 。 一 旦 当 窗 口 管理 堪 异 党 终止 ， 根 窗口 将 领养 应 
用 的 窗口 ， 从 而 避免 了 Frame 窗 口 被 销毁 时 ， 应 用 的 窗口 也 被 销毁 的 命 


运 。 


7.1.2 创建 编译 脚本 


不 知道 读者 是 否 注 音 到 ， 几 乎 前 面 编 详 的 所 有 软件 在 进行 安 狠 时 ， 
仅仅 通过 定义 环境 变量 DESTDIR 为 $SYSROOT， 就 安装 到 了 目 
录 /vVita/sysroot 下。 如 采 Makefile 全 部 是 由 程序 员 手 工 与 的 ， 不 知道 是 合 
能 做 到 如 此 整齐 划一 ? 很 多 手写 的 Makefile 中 ， 目 标 install 的 规则 更 多 的 
是 形 如 下 面 这 个 样子 : 


lnstall: 
install x /usr/bin 


很 难 考 虑 到 像 下 面 这 样 周全 : 


nstall: 
install x Ss (DESTDIR}) /usr/bin 


因此 ， 标 准 化 的 Makefile 对 GNU 这 种 由 来 自 世 界 各 地 的 程序 员 共 后 
参与 开发 的 项 目 非常 重要 。 


前 面 ， 我 们 已 经 领教 了 内 核 构 建 系 统 中 的 Makefile， 从 其 复杂 程度 
可 见 ， 对 于 具有 多 级 目录 、 多 个 目标 的 复杂 项 目 ， 编 写 和 维护 一 个 
Makefile 是 多 么 党 重 的 一 件 事情 。 


鉴于 类 UNIX 系 统 版 本 的 多 样 性 ，GNU 软 件 的 源 代 码 级 的 可 移植 就 
变 得 非常 重要 了 ， 因 此 ， 编 译 脚本 时 必须 要 小 心 应 对 不 同系 统 环境 之 间 
的 兰 卉 。 以 我 们 的 环境 为 例 ， 同 样 一 个 软件 ， 在 不 修改 配置 编译 脚本 的 
前 提 下 ， 在 宿主 系统 下 ， 应 该 将 编译 器 识别 为 gcc， 而 在 交叉 编译 环境 
下 ， 应 该 将 编译 器 识别 为 1686-none-linux-gnu-gcc。 这 只 是 非常 简单 的 一 


个 例子 ， 对 于 复杂 的 项 目 ， 情 况 要 比 这 个 粮 糕 得 多 。 


于 是 饱 受 折磨 的 开 友 者 们 开 友 了 GNU 构建 系统 (GNU Build 
System) ， 或 者 叫 GNU 上 自动 构建 工具 (GNU Autotoolgs) ， 为 了 行文 方 
便 ， 我 们 简称 其 为 Autotools。Autotools 核 心包 括 Autoconf 和 Automake。 
这 里 要 准确 理解 “自动 构建 工具 ”的 意义 ， 所 谓 Autotools， 并 不 是 自动 完 
成 整个 配置 编译 过 程 ， 而 是 目 动 构建 配置 脚本 configure 和 Makefile。 


(1) Autoconf 


Autoconf 的 准 硝 售 义 是 目 动 创建 目 动 配置 脚本 (automatically create 
automatic configuration scripts) 。 怎 么 理解 自动 配置 脚本 呢 ? 简单 来 
讲 ， 束 是 目 动 探测 各 种 不 同系 统 的 各 种 特性 ， 如 是 本 地 编译 还 是 交叉 编 
译 ， 系 统 中 使 用 的 编译 右 、 链 接 需 等 程序 是 什么 ， 编 详 以 及 链接 程序 时 
需要 的 头 文 件 、 动 态 库 以 及 它们 所 在 的 路 径 ， 等 等 ， 达 到 目 动 动态 适 
配 ， 而 不 是 便 编 码 到 脚本 中 ，。 


可 以 这 样 概括 Autoconf 的 工作 过 程 : 将 多 个 shell 片 段 最 终 合 并 为 一 


个 完整 的 Shell 脚 本 ， 即 configure。Autoconf 使 用 安 来 定义 这 些 shell 片 
段 ， 开 及 者 南 要 根据 编 详 需要 ， 使 用 这 些 宏 组 合 Autoconf 的 元 文件 
configure.ac， 这 个 元 文件 兽 经 命名 为 configure.in， 后 来 更 改 为 
configure.ac， 但 是 Autoconf 也 辣 后 羔 容 configure.in。 然 后 Autoconf 将 元 
文件 configure.ac 中 的 宏 展开 为 其 体 的 配置 脚本 configure。 


Autoconf 程 序 本 喘 使 用 shell 脚 本 编写 ， 但 是 Autoconf 并 没有 使 用 
shell 完 成 宏 展开 功能 ， 而 是 借助 了 GNU 的 M4 来 完成 宏 的 展开 。 人 简单 来 
讲 ，M4 束 是 将 输入 有 的 宏 名 转换 为 宏 定义 ， 也 束 是 说 ，M4 的 输入 是 宏 
名 ， 而 输出 是 shell 脚 本 片段 。Autoconf 使 用 M4 定义 了 一 些 内 置 的 宏 ， 并 
且 基 于 M4 之 上 又 封 妆 了 一 层 宏 ， 目 的 是 为 了 更 符合 Autoconf 的 需求 ， 
Autoconf 封 装 的 宏一 般 以 "AC_" 开 头 。 其 他 程序 可 以 使 用 Autoconf 封 装 
的 这 些 宏 ， 或 者 直接 使 用 M4 定义 目 己 的 宏 , 但 是 最 终 ， 本 质 上 都 是 M4 
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因为 M4 宏 定义 很 多 是 第 三 方程 序 提供 的 ， 可 能 安装 在 系统 的 多 个 
位 置 ， 因 此 GNU 目 动 构建 系统 编号 了 程序 aclocal 负 责 将 这 些 安定 义 收 集 
到 文件 aclocalm4， 保 存在 源码 的 项 层 目录 下 ， 供 目 动 构建 系统 使 用 。 


(2) Automake 


同 Autoconf 类 似 ，Automake 的 准确 信义 是 "automatically generate 


makefile.in"， 开 及 人 员 只 需 编 写 一 个 简单 的 元 文件 ， 在 其 中 手 述 必要 的 


诉求 : 比如 构建 一 个 二 进 制 程序 ， 使 用 的 源 代 但 文件 是 什么 ， 链 接 茶 茶 
等 即 可 。 其 他 的 都 交 由 Automake 全 权 处 理 吧 。Automake 将 创建 一 个 
标准 的 Makefile 文 件 ， 包 括 补 全 开发 者 不 愿意 编写 的 那些 琐 雁 的 规则 ， 


加 install、clean、distclean、dist 等 。 


Automake 的 输出 事实 上 是 一 个 Makefile 模 板 ， 命 名 为 Makefile.in。 
然后 ，configure 脚 本 使 用 探测 到 的 值 百 换 模板 Makefile.in 中 的 变量 ， 创 
建 最 终 的 Makefile。 显 然 ， 这 种 方式 要 比 我 们 将 所 有 的 变量 定义 全 部 便 
纺 合 到 Makefile 中 的 做 法 可 移植 性 更 好 。 


综 上 ， 使 用 GNU Autotools 创 建 Makefile 的 过 程 可 以 分 为 如 下 几 个 步 


1) 编 与 元 文件 configure.ac。 


2) 执行 aclocal。aclocal 将 扫描 configure.ac 中 使 用 的 M4 宏 ， 并 到 系 
统 中 收集 这 些 宏 的 定义 ， 然 后 将 这 些 宏 定义 复制 到 源码 顶层 目录 下 的 


aclocal.m4 中 。 


3) 调用 autoconf， 将 configure.ac 中 的 宏 展 开 为 shell 脚 本 形式 的 


configure。 
4) 编写 元 文件 Makefile.am。 


5) 调用 automake。automake 根 据 Makefile.am 创 建 Makefile 的 模板 文 


件 Makefile.in 。 


6) 执行 脚本 configure。configure 探 测 系统 环境 ， 并 使 用 探测 到 的 值 
奉 换 模板 Makefile.ipn 中 的 变量 ， 生 成 具体 的 Makefile。 


从 上 面 的 讨论 可 以 看 出 ， 对 于 开 肥 者 来 说 ， 主 要 的 工作 吏 是 创建 元 
文件 configure.ac 和 Makefile.am， 其 他 的 全 部 交 给 Autotools。Autotools 极 
大 地 减轻 了 程序 开 及 人 员 的 负担 ， 将 烦 开 的 编写 的 Makefile 任 务 转 尹 给 
了 Anutotools 的 开 有 友和 维护 着 。 


既然 Autotools 有 如 此 多 的 优点 ， 所 以 即使 我 们 的 迷你 窗口 管理 天 很 
小 ， 我 们 还 是 可 以 依 助 它 感 同 吴 受 一 下 Autotools 市 来 的 好 处 。 我 们 这 里 
绝 非 * 杀 鸡 用 牛刀 ”， 而 古 希 望 读 者 信 助 这 个 例子 ， 可 以 切身 体会 一 下 
Autotools， 这 样 无 论 是 在 大 型 项 目 中 使 用 Autotools， 或 者 为 GNU 软 件 页 
献 源 码 ， 亦 或 基于 使 用 Autotools 的 项 目 进行 二 次 开发 ， 都 会 大 有 益处 。 


1. 创 建 configure 


我 们 将 这 个 迷你 窗口 管理 恬 命 名 为 winman， 使 用 winman 作 为 顶层 
目录 的 名 他， 在 顶层 目录 下 创建 一 个 子 目 录 src 用 来 存放 源 代码 。 我 们 基 
于 Xlib， 使 用 C 语 言 编写 winman。 因 此 ，configure.ac 中 除了 Autoconf 要 
求 的 必 选 的 宏 外 ， 最 重要 的 就 是 检查 C 编 译 器 和 X 的 库 了 ， 其 内 容 如 
下 : 


winman/configqgure.ac: 


AC INIT(winman, 0.1, balsheng wang@163 .com) 
AM INIT AUTOMAKE (forelign) 


At. PROG CC 
PRKG CHECK MODULES (XX, X11) 


AC CONFIG FILES (Makefile src/Makefile) 
AC QUTPUT 


Autoconf 要 求 configure.ac 以 宏 AC_INIT 作 为 开 涉 ， 该 宏 由 Autocontf 
定义 ， 接 收 一 些 基 本 信息 ， 如 软件 包 的 名 称 ， 版 本 号 ， 开 友 或 者 维护 人 
员 的 Email 等 。 制 作 发 布 的 软件 包 时 ， 将 用 到 这 些 信 息 。 


安 AM INIT AUTOMAKE 由 Automake 定 义 ， 用 来 进行 与 Automake 
相关 的 初始 化 工作 ， 只 要 使 用 Automake， 这 个 宏 也 是 必 选 的 。 在 默认 情 
况 下 ，Automake 会 检查 项 目 目 录 中 是 任 包 售 NEWS、README、 
ChangeLog 竺 文件， 为 简单 起 见 ， 我 们 给 Automake 传 速 了 "foreign" 参 
数 ， 明 确 告 诉 Automake 我 们 的 项 目 不 需 要 包含 这 些 文 件 。 


安 AC_PROG _CC 用 来 检测 C 编 译 器 ， 根 据 该 宏 名 的 前 缀 "AC_" 束 可 
判断 出 其 他 由 Autoconf 和 定义。 其 将 在 系统 内 搜索 C 编 译 器 ， 并 定义 变量 
CC 指 疝 搜索 到 的 C 编 译 器 。 


接 下 来 ， 我 们 使 用 软件 包 pkg-config 近 供 的 宏 


PKG_CHECK MODULES 检 测 X 的 库 。 访 宏 将 定义 两 个 变量 ， 分 别 是 安 
的 第 一 个 参数 加 上 后 级 "_CFLAGS" 和 " _LIBS"， 这 里 就 是 X CFLAGS 和 
X_LIBS。 如 果 查 看 congfigure 脚 本 就 可 以 发 现 ， 这 个 宏 定义 的 核心 其 实 


束 是 执行 命令 "pkg-config--cflags x11" 和 "pkg-config--libs x11"。 


宏 AC CONFIG FILES 告 诉 Automake 生 成 哪些 Makefile 模 板 文 件 
Makefile.in。 这 里 ， 需 要 在 顶层 目录 和 和 src 目录 下 分 别 创建 Makefile.in 文 
件 。 


在 configure.ac 的 最 后 ，Autoconf 要 求 必须 以 宏 AC_OUTPUT 结 束 


configure.ac。 


准备 好 configure.ac 后 ， 我 们 使 用 如 下 命令 生成 脚本 configure: 


vita@baisheng:/vita/build/winmans aclocal 
vita@baisheng:/vita/build/winmans$s autocontf 


2. 生 成 Maketfile 


窗口 管理 如 的 产 公 保存 在 顶层 目录 下 的 子 目 录 src 中 ， 我 们 在 顶层 目 
了 录 和 子 目 孙 Src 下 面 分 别 瑚 要 编写 Automake 元 文件 Makefile.am。 


顶层 目录 winman 下 的 Makefile.am 如 下 : 


winman/Makeflle .anm: 
oUBDIRS = SIC 
因为 顶层 目录 下 基本 没有 任何 操作 ， 所 以 该 Makefile.am 非 党 简单 ， 
只 是 通过 变量 SUBDIRS 告 诉 Automake， 需 要 递归 编译 子 目 录 src。 


子 目 孙 Src 下 的 Makefile.amz 加 下 : 


winman/src/Makefile .anm: 
bin PROGRAMS = winman 
winman SOURCES = wm.h main.c 


winman CFLAGS = $(X CFLAGS) 
winman LDADD = $5 (X LIBS) 


变量 bin_PROGRAMS 指 定 了 编译 最 后 创建 的 二 进 制 可 执行 文件 的 
名 称 ， 该 变量 由 两 部 分 构成 ， 其 中 "bin" 表 示 安 状 在 目录 $prefix/bin 
下 ，"PROGRAMS" 指 明 最 后 创建 的 文件 是 一 个 可 执行 文件 。 


winman _ SOURCES 表 示 创 建 winman 需 要 的 源 文 件 ; 
winman_CFLAGS 和 winman_LDADD 分 别 表 示 编 译 链接 时 需要 传递 给 编 
译 占 和 链接 器 的 参数 。X_CFLAGS 和 X_LIBS 已 经 在 前 面 的 configure.ac 
中 由 宏 PKG_CHECK_MODULES 定 义 了 。 


Automake 的 元 文件 已 经 准备 就 络 ， 我 们 使 用 下 面 的 命令 创建 
Makefile 的 梗 板 Makefile.in: 


vita@baisheng:/vita/build/winmans$ automake --add-missing -copy 


其 中 选项 "--add-missing" 和 "--copy" 是 告诉 automake 将 其 需要 的 一 些 
脚本 文件 ， 比 如 install-sh 等 ， 直 接 复 制 到 项 目 目录 中 ， 而 不 是 建立 这 些 
脚本 文件 的 链接 。 这 么 做 是 为 了 分 肥 到 其 他 系统 时 ， 避 免 因 为 脚本 位 置 
不 同 或 者 系统 中 没有 安装 相应 脚本 而 导致 编译 链接 失败 。 


上 述 命令 执行 后 ， 将 分 列 在 顶层 目录 和 子 目 录 src 下 创建 Makefile 的 
模板 Makefile.in 。 


最 后 ， 执 行 confugure 脚 本 探测 编译 过 程 所 需 的 各 个 变量 ， 然 后 用 控 
测 到 的 具体 的 值 蔡 换 Makefile.in 中 的 变量 ， 比 如 X_CFLAGS、X_LIBS,， 
生成 Makefile 文 件 : 


vita@baisheng:/vita/build/winmans ./configure --prefix=/usr 


7.1.3 ”主要 数据 结构 


在 winman 中 ， 将 为 每 个 被 管理 的 窗口 创建 一 个 对 象 ， 记 录 其 相关 
言 息 ， 为 此 我 们 抽象 了 结构 体 Client。 男 外 ， 我 们 抽象 了 结构 体 
WinMan， 其 中 记录 了 一 些 全 局 信息 。 在 讨论 其 体 的 实现 前 ， 我 们 先 来 
本 解 一 下 这 两 个 数据 结构 。 读 者 不 必 全 部 理解 每 一 项 的 含义 ， 后 面 其 体 
过 到 时 ， 读 者 可 以 再 回 到 这 里 ， 前 后 结合 进行 理解 。 


1. 结 构 体 Client 


结构 体 Client 中 主要 包含 窗口 属性 信息 以 及 与 窗口 操作 相关 的 函 


winman/src/wm.h: 


typedef struct Client { 
Window window; 
WinMan *wm; 


Window frame; 

Window titlebar; 

Window minimize btn; 

Window maximize restore btn; 
Window close btn; 

Window acting btn; 


Window rsz top side; 
Window rsz bottom side; 


Window rsz lr angle; 
Window resizing area; 


Bool moving,; 
Trt uchor Rs GneHor YY: 


Int Cy Ve Wdthe Herght: 

int min width, min height; 

unsigned int state,; 

int restore x, restore y, restore w, restore h; 


struct ‘Client “trans fory 
int ignore unmap; 


struct Client *above; 
struct Client *below; 


void (* configure) (struct Client *, XConfigureRequestEvent *),; 


void (* reparent) (struct Client *); 
void (* move resize) (struct Client *); 
} Ciient; 


我 们 结合 图 7-6 来 解释 其 中 相关 数据 项 。 


rsz_ ul angle frame rsz top slide minimize btn rsz_ur angle 


< \ dd 


titlebar 


maximize restore btn close btn 
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图 7-6 窗口 相关 参数 


信 每 个 窗口 作为 X 服 务 夯 的 一 个 资源 ， 都 有 一 个 ID 来 唯一 标识 。 这 
里 的 数据 项 window 束 是 被 官 理 的 窗口 的 人 D。 


令 wm 指 同 全 局 的 结构 体 WinMan 的 对 象 。 


仿 frame 是 Frame 窗 口 的 ID; titlebar 是 标题 栏 窗口 的 ID; 
minimize_btn 是 最 小 化 按钮 对 应 的 窗口 的 ID; maximize_restore_btn 古 最 
大 化 /恢复 按钮 对 应 的 窗口 的 ID; close_btn 是 关闭 按钮 对 应 的 窗口 的 
ID 。acting_btn 征 一 个 为 了 编程 方便 定义 的 辅助 变量 ， 用 来 记录 用 户 氮 
击 了 最 大 化 、 最 小 化 以 及 关闭 按钮 中 的 哪 一 个 。 


全 以 "rsz "(resize 的 简写 ) 开头 的 8 个 实 口 ， 是 在 Frame 窗 口上 创建 
的 8 个 不 可 见 窗口 ， 它 们 分 别 位 于 Frame 窗 口 的 4 个 边 和 4 个 角 ， 目 的 是 为 
本 便于 判断 鼠标 古谷 阔 在 调整 窗口 尺寸 的 区 域 。 也 束 是 说 ， 一 旦 用 户 的 
孔 标 落 入 这 个 窗口 区 域 ， 程序 的 鼠标 将 使 用 特定 的 指针 ， 提 示 用 户 可 以 
进行 改变 窗口 的 尺寸 了 。resizing_area 也 是 一 个 辅助 变量 ， 用 来 记录 妃 
标 沙 在 了 调整 窗口 尺寸 的 8 个 区 域 的 哪个 区 域 ， 也 束 古 哪个 窗口 上 。 


仿 不 旺 moving 用 来 标识 用 户 古 人 否 正 在 移动 窗口 ，anchor_x、 
anchor_y 记 录用 户 在 标题 栏 上 按 下 鼠标 左 键 、 准 备 开 始 移动 时 的 位 置 ， 
日 的 古 为 了 计算 女 标 按 下 位 置 与 当前 位 置 的 距离 。 


令 Xx、y、width、height 记 了 录 窗 口 的 位 置 及 大 小 。min_width、 
min_height 表 示人 允许 用 户 改变 窗口 尺寸 时 允许 的 最 小 值 ， 主 要 目的 是 避 
多 用 户 不 小 心 将 窗口 软 小 的 太 小 ， 导 致 窗口 “丢失 ”7 。 


傅 state 记 录 窗 口 的 状态 ，winman 只 处 理 最 大 化 及 其 标准 状态 。 
restore Xx、restore y、restore W、restore_h 分 别 记录 窗口 在 最 大 化 之 前 的 


位 置 和 和 尺寸， 以便 从 最 大 化 恢复 为 标准 尺寸 时 使 用 。 


令 trans_for 的 目的 是 为 了 记录 未 个 窗口 是 否 是 临时 窗口 ， 如 条 是 临 
时 和 窗口， 那么 它 是 谁 的 临时 和 窗口。 在 讨论 窗口 切换 时 ， 我 们 将 看 到 这 个 
数据 项 的 意义 。 


仿 禾 量 ignore_unmap 涉 及 的 内 容 有 点 复兴 ， 将 在 7.1.12 节 评 细 讨 


每 个 窗口 通过 指针 above 和 below 链 接 到 窗口 栈 中 。 

与 窗口 操作 相关 的 一 些 函 数 的 实现 ， 后 面 章节 中 我 们 会 讨论 。 
2. 结 构 体 WinMan 

结构 体 WinMan 中 包含 了 全 局 十 要 使 用 的 变量 ， 定 义 如 下 : 


winman/src/wm.h: 


typedef struct WinMan { 
Display *dpy; 
nt screen.; 
Window root.; 


Atom atoms [ATOM COUNT|.; 


struct Client *stack top 
struct Client *stack bottom,; 
int stack items; 


Struct ClIicentk *actLives 

struct Client *desktop:; 

struct Client *taskbar,; 
} WinMan ; 


上 述 代码 中 各 个 参数 人 台 义 如 下 : 


令 第 一 个 数据 项 dpy 无 需 多 说 了 ， 它 是 代表 应 用 到 X 服 务 右 的 连 
接 。 一 个 X 服 务 左 可 以 文 持 多 屏 ， 每 个 屏 上 都 会 有 一 个 根 窗口 。 虽 然 我 
们 不 考 碟 多 屏 的 情况 ， 但 是 茶 些 函数 使 用 屏幕 号 和 根 窗 口 作 为 参数 ， 为 
了 避免 每 次 使 用 时 都 要 从 X 服 务 右 获取 ，winman 在 结构 体 中 保留 了 一 份 
副本 ， 即 数据 项 screen 和 root， 分 别 代表 屏幕 号 和 根 窗 口 ID。 


仿 数组 atoms 中 记录 的 是 用 于 窗口 间 通 信 的 Atom，winman 也 不 和 硕 望 
应 用 反复 的 从 X 服 务 器 获取 这 些 Atom， 上 所 以 将 它们 保存 在 winman 的 本 
地 。 


争 winman 使 用 栈 的 方式 记录 窗口 对 象 ( 即 为 每 个 窗口 创建 的 结构 
体 Client 的 实例 ) ，stack_top 和 stack_bottom 分 别 指向 这 个 窗口 栈 的 栈 顶 
和 栈 底 。 上 距离 用 户 最 远 的 窗口 记录 在 栈 确 ， 距 离 用 户 最 近 的 窗口 记录 在 
栈 顶 。stack_items 记 录 栈 中 窗口 对 象 的 数量 。 


令 active、desktop 以 及 taskbar 分 别 指 同 当 前 活动 的 窗口 、 构 成 加 面 
环境 的 蝎 面 组 件 以 及 任务 条 组 件 。 


7.1.4 初始 化 


谈 及 初始 化 ， 大 多 给 人 的 印象 是 进行 一 些 琐 雁 的 准备 工作 ， 但 是 
winman 中 有 几 处 却 非 党 关键 ， 相 关 人 代码 如 下 : 


winman/src/main.ce: 
int. maintint argc; char *argvl]) 


| 


WinMan *wm; 
wm = malloc(sizeof (WinMan)); 
memset (wm, 0, sizeof (WinMan) ) ; 
if (!(wm->dpy = XOpenDisplay (NULL))) { 
} 


wm->screen = DefaultScreen (wm->dpy); 
wm->root = RootWindow (wm->dpy, wm->screen),; 
XSetErrorHandler (error handler).; 


atom init (wm) ; 


XSelectInput (wm->dpy, wm->root, SubstructureRedirectMask 
| SubstructureNotifyMask),; 


init clients (wm); 
wm event loop (wm) ; 


return 0; 


下 面 介绍 该 函数 主要 执行 的 操作 ，。 


(1) 连接 X 服 务 器 


宰 口 党 理 右 与 普通 的 X 应 用 并 无 本 质 区 列 ， 只 征 具 有 一 氮 氮 特 权 ， 
它 也 是 X 服 务 颖 的 一 个 客户 问 。 从 服务 强 和 客户 问 的 体系 架构 角 大 而 
言 ， 应 用 程序 当然 需要 和 服务 器 建立 连接 后 才能 通信 ， 为 此 ，Xlib 提 供 
了 函数 XOpenDisplay 用 于 建立 它们 之 间 的 连接 。 


(2) 错误 处 理 


Xlib 将 错误 分 为 两 尖 : 一 类 错误 是 不 可 恢复 的 ， 这 交错 误 是 致命 
的 ， 一 旦 友 生 后 ， 应 用 基本 不 可 能 执行 下 去 了 ， 如 应 用 程序 和 服务 右 的 
连接 靳 开 了 ， 除 了 终止 应 用 程序 外 列 无 选择 ， 太 外 一 类 是 协议 错误 ， 比 
如 当 应 用 读 取 条 个 窗口 的 属性 时 ， 这 个 窗口 可 能 在 服务 厚 中 已 经 不 存在 
了 了。 显然 ， 这 次 错误 不 是 致命 的 ， 应 用 完全 可 以 目 己 决定 是 忽略 错误 还 


征 终止 执行 。 


Xlib 为 这 两 类 错误 都 设置 了 献 认 的 错误 处 理 疯 数 ， 它 们 的 行为 均 是 
打印 错误 提示 并 终止 应 用 。 但 是 Xlib 也 分 别提 供 了 接口 
XSetIOErrorHandler 和 XSetErrorHandler 人 允许 应 用 设置 目 己 的 致命 错误 和 
协议 错误 处 理 函 数 。winman 设 置 了 协议 错误 处 理 函 数 为 error_handler， 
当 发 生 协 议 错误 时 ，error_handler 只 打印 错误 信息 ， 并 不 终止 执行 。 


(3) 创建 Atoms 


四 数 atom_init 使 用 X] 了 b 的 函数 XInternAtoms， 一 次 性 创建 后 面 用 到 
的 属性 的 Atom， 并 将 Atom 保 存在 结构 体 WinMan 的 atoms 数 组 中 。 相 天 


代码 如 下 : 


winman/src/main.c: 
static void atom init (WinMan *wm) 


人 


char *atom names[] = { 


" NET WM WINDOW TYPE" ， 


XInternAtoms (wm->dpy, atom names, ATOM COUNT, False, wm->atoms).,; 


} 


最 初 ，X 标 准 协会 制定 了 ICCC 通 信 协 议 。 后 来 ， 随 着 现代 加 面 的 发 
展 ， 又 制定 了 EWMH， 即 对 ICCCM 进 行 的 补充 扩展 。 这 两 个 协议 中 十 
义 了 大 量 的 属性 ， 在 函数 atom_init 中 ， 以 WM_ 开头 的 基本 是 ICCCM 标 
准 中 定义 的 ， 以 _NET 开头 的 是 EWMH 中 定义 的 。 除 了 标准 定义 的 属性 
外 ， 应 用 也 可 以 目 定义 属性 ， 其 中 以 CUSTOM_ 开头 的 台 是 winman 目 
定义 的 属性 。 


(4) 拦截 事件 


国 数 XSelectInput 可 以 说 是 窗口 常理 大 的 国 龙 点 睛 之 笔 了 了 。winman 
按照 前 面 的 讨论 ， 选 择 了 根 窗口 
的 "SubstructureRedirectMask" 和 "SubstructureNotifyMask'" 。 


(5) 管理 已 存在 的 窗口 


在 窗口 管理 豆 司 动 之 前 ， 系 统 上 可 能 已 经 有 X 应 用 在 运行 。 因 此 ， 


winman 局 动 时 需要 管理 这 些 已 存在 的 窗口 ， 郴 数 init_ clients 束 是 做 这 件 


已 
事 的 ， 其 具体 细节 请 参见 7.1.13 节 。 
(6) 事件 循环 


急 始 化 完成 后 ， 窗 口 管 理 器 进入 事件 循环 ， 子 数 wm_event_loop 调 
用 Xlib 的 函数 XNextEvent 将 窗口 管理 器 对 X 的 请 求 发 送 给 X 服 务 器 ， 然 
后 检查 事件 队列 ， 调 用 相应 的 事件 处 理 函 数 。 接 下 来 的 的 章节 中 ， 我 们 
会 陆续 讨论 这 些 事 件 处 理 函 数 。 


南 要 特殊 指出 的 是 Expose 事 件 ， 以 图 7-7 所 示 窗 口 布 局 为 例 。 


Root Window Root Window 


Window E 


图 7-7 多 个 连续 Expose 事 件 发 生 情 况 





Window E 有 四 个 区 域 分 别 被 Window A~D 谈 挡 ， 当 Window E 成 为 
当前 活动 窗口 时 ，X 服 务 硕 将 为 每 一 个 航 遮 挡 的 部 分 都 报告 一 个 Expose 
事件 ， 并 将 同一 个 动作 引发 的 Expose 事 件 连续 的 放 到 事件 队列 中 。 结 构 


体 XExposeEvent 中 的 变量 count 葡 是 用 来 记录 一 个 Expose 事 件 后 面 还 有 多 
少 个 Expose 事 件 的 。 


因此 ， 从 效率 的 角度 来 讲 ， 对 于 多 个 连续 的 Expose 事 件 ， 应 用 应 该 
忽略 挥 最 后 一 个 Expose 事 件 前 面 所 有 的 Expose 事 件 ， 而 在 收 到 最 后 一 个 
Expose 事 件 时 才 进 行 绘制 。 


7.1.5 ”为 窗口 落户 ， 


一 旦 收 到 X 服 务 器 转发 来 的 MapRequest， 就 说 明 有 应 用 的 顶层 窗口 
请 求 显 示 了 ， 显 然 ， 这 个 时 机 是 窗口 管理 器 切入 的 最 佳 时 机 。winman 
首先 过 有 历 窗口 栈 确 认 窗 口 是 合 已 经 被 党 理 ， 如 末 请 求 映 射 的 窗口 疝 未 
伞 管 理 ， 则 调用 wm_new_client 开 始 管理 窗口 ， 函 数 wm_new_client 的 代 
但 如 下 : 


winman/src/main.c: 


static Client* wm new client (WinMan *wm, Window win) 
人 

Atom 七 YPe ; 

nt format, Status ; 

unsigned long n, extra,; 

Atom *value = NULL.; 

Client *c 三 NULL: 


status = XGetWindowProperty (wm->dpy, win, 
wm->atoms [ NET WM WINDOW TYPE], 
0, 1, False, XA ATOM, &type, t&format, é&n, 
&extra, (unsigned char **)&value); 
if (status == Success && type == XA ATOM 
&& format == 32 && value) { 
if (value[0j == wm->atoms[ NET WM WINDOW TYPE NORMAL] ) 


Cc = normal client new(wm, win); 
else if (value [0] == wm->atoms[ NET WM WINDOW TYPE DIALOG]) 


} 


Cc->reparent (C) ; 
C-5>Showt(le).: 


天 后 让 WII CC” 


该 函数 执行 的 主要 操作 如 下 : 


1) 如 同 我 们 每 个 人 要 有 一 个 户口 ， 在 落户 时 需要 提供 各 种 自然 人 
信息 一 样 ， 窗 口 管理 器 也 要 收集 窗口 的 各 种 "自然 人 ”信息 ， 为 窗口 在 窗 
管理 器 中 “落户 ”。 


2) 绘制 窗口 沽 饰 。 

3) 一 切 准 备 受 当 后 ， 申 请 X 服 务 此 显示 应 用 的 窗口 ， 当 然 也 包括 
关口 管理 右 附 加 的 猴 饰 。 

这 一 节 ， 我 们 完 来 讨论 为 窗口 “ 深 户 ”这 一 过 程 。 


如 前 所 述 ， 在 一 个 典型 的 X 环 境 中 ， 可 能 有 多 种 类 型 的 X 应 用 程 
序 ， 比 如 构成 果 面 环境 的 任务 条 等 组 件 ， 以 及 普通 的 应 用 程序 。 即 使 是 
普通 的 应 用 的 窗口 ， 也 可 分 为 标准 的 窗口 以 及 对 话 框 等 。 显 然 ， 不 同 的 
类 型 的 窗口 需要 区 别 对 每 ， 我 们 不 能 给 任务 条 也 加 个 标题 住 ， 那 样 就 会 


i 
有 出 实话 。 


起 


EWMH 规 定 窗 口 需要 设置 属性 NET_WM_WINDOW_TYPE 来 表明 
目 己 的 类 型 ， 阴 数 wm_new_client 依 据 的 束 古 EWMH 这 个 规定 来 判别 密 
口 的 类 型 。 因 此 ， 函 数 wm_new_dlient 调 用 Xlib 的 函数 
XGetWindowProperty 获 取 窗 口 的 属性 _NET_WM_WINDOW_TYPE 扑 
值 ， 根 据 窗口 的 不 同类 型 ， 创 建 不 同类 型 的 窗口 对 象 。 


下 面 ， 我 们 以 标准 窗口 为 例 ， 讨 论 其 “ 洛 户 ?过 程 。 


winman/src/normal client.c: 


Client* normal client newl(WinMan *wm, Window win) 
人 

Client wxc; 

XWindowAttributes attr; 

XSizeHints *hints = NULL; 

long dummy; 

Window trans for = None; 


c = malloc(sizeof (Client)); 
memset (c, 0, sizeof (Client)); 
CcC->window = win; 

C->Wm = WM; 


XSetWindowBorderWidth (wm->dpy, c->window, 0); 
XGetWindowAttributes (wm->dpy, win, &attr); 
SG-SR = tt 

Cm EE ETE 

c->width = attr.width; 

c->height = attr.height; 


if (I{(hints = XAlLocSlizeHints(})) 
return; 
if (XGetWMNormalHints (wm->dpy, c->window, hints, &dummy)) { 
if (hints->flags & PMinSize) { 
c->min width = hints->min width; 
c->min height = hints->min height; 


} 


xXFree (hints) ; 


c->min width = c->min width > MIN WIDTH ? 
c->min width : MIN WIDTH.; 

c->min height = c->min height > MIN HEIGHT ? 
c->min height : MIN HEIGHT; 


ewmh get net wm state(c); 
if (c->state & (NET WM STATE MAXIMIZED V 
| NET WM STATE MAXIMIZED H)) 
custom get restore size(c); 


XGetTransientForHint (wm->dpy, Cc->window, &trans for); 
4 (Erans EOE) 
c->trans for = wm find client by window (wm, trans for),; 
iE (temstrans Tory 
if (wm->active) { 
XGrabButton (wm->dpy, Buttonl, 0, wm->active->window, 
True, ButtonpressMask, GrabModeSync, 
GrabModeSync, None, None); 


Item *trans = normal client get transients (wm->active); 
Item *1; 
for (i = trans; i; i = i->next) { 


XGrabButton(c->wm->dpy, Buttonl, 0, 
i->client->window, True, ButtonpressMask, 
GrabModeSync, GrabModeSync, None, None).,， 


| 


list Eree (&tzanS) ; 


} 


wm->active = C; 
ewmh set net active window (wm->active); 


} 


c->configure = &normal client configure:; 
Cc->reparent = &normal client reparent.; 


stack append top(c); 
ewmh update net client list stacking (wm),; 


eCUrnN CG:: 


下 面 介 绍 函 数 normal_client_new 执 行 的 主要 操作 。 


通 毅 ， 窗 口 可 以 请 求 X 服 务 画 绘制 了 这 框 。 但 是 为 了 统一 ， 我 们 调用 
XSetWindowBorderWidth 人 为 地 将 窗口 的 目 身 的 边框 设置 为 0， 而 征 在 
Frame 窗 口上 为 被 管理 的 窗口 绘制 统一 的 边框 。 在 winman 中 ， 为 简单 起 
见 ， 边 框 的 宽度 采用 了 一 个 固定 的 伍 。 但 是 窗口 常理 磊 可 以 草 重 窗口 的 
诉求 ， 在 绘制 窗口 边框 前 ， 读 取 窗 口 属性 中 设 定 的 边框 宽度 。 


(2) 获取 窗口 几何 尺寸 


接 下 来 ， 我 们 读 取 窗口 的 几何 太 寸 ， 包 括 位 置 、 宽 度 和 高 度 ， 以 及 
窗口 所 允许 的 最 小 的 尺寸 。 这 里 我 们 分 别 使 用 了 Xlib 的 函数 
XGetWindowAttributes 及 XGetWMNormalHints， 主 要 是 因为 Xlib 不 推荐 
通过 XGetWMNormalHints 获 取 的 窗口 的 位 置 和 大 小 ， 但 是 通过 


XGetWindowAttributes 又 不 能 获取 窗口 的 最 小 宽度 和 最 小 高 度 。 
(3) 读 取 窗口 状态 


在 EWMH 中 ， 规 定 了 窗口 的 状态 属性 _NET_WM_STATE 包 括 
_NET WM_STATE MODAL.、 
_NET WM_STATE MAXIMIZED_VERT. 
_NET WM_STATE _ MAXIMIZED_HORZ、 


_NET WM_STATE_ FULLSCREEN 等 。 


为 简单 起 见 ，winman 中 只 示例 处 理 了 窗口 最 大 化 的 状态 。 函 数 
ewmh_get_net_wm_state 调 用 Xlib 的 接口 XGetWindowProperty 读 取 窗 口 的 
属性 NET_WM_STATE。 如 果 属 性 中 包含 
_NET_ WM_STATE_MAXIMIZED_VERT 和 
_NET_ WM_STATE_ MAXIMIZED_HORZ， 那 么 就 说 明 窗 口 是 处 于 最 大 
化 状态 ， 则 winman 壬 试 读 取 窗口 中 的 标准 状态 〈Restore 状 态 ) 下 窗口 
的 位 置 和 尺寸 信息 ， 以 便 窗口 从 最 大 化 切换 到 标准 状态 时 使 用 。 


读者 可 能 会 问 ， 结 构 体 Client 中 数据 项 restore_x、restore_y、 
restore _w、restore_h 不 是 记录 了 窗口 在 最 大 化 之 前 的 位 置 和 尺寸 吗 ? 但 
是 设想 这 样 一 个 场景 当 窗 口 处 于 最 大 化 时 ， 窗 口 官 理 右 寞 剃 退 出 了 ， 
那么 当 窗 口 管 理 硕 再 次 司 动 时 ， 这 个 数据 如 何 饭 始 化 ?” 这 吏 是 winman 
为 窗口 自 定义 属性 _CUSTOM_WM_RESTORE_GEOMETRY 的 目的 ， 
winman 将 这 些 信息 保存 在 窗口 中 ， 只 要 窗口 在 ， 这 些 信息 就 可 以 从 窗 


口中 读 出 来 ， 可 谓 古 “人 在 阵地 束 在 ”。 
(4) 捕捉 <“ 旧 ”窗口 


当 新 的 窗口 出 现 后 ， 如 采 这 个 新 窗口 不 是 一 个 临时 窗口 ， 其 将 成 为 
当前 活动 的 窗口 ， 而 上 一 个 活动 窗口 将 退 牛 二 线 。 因 此 ，winman 需 要 
捕捉 这 个 退 盾 二 线 的 窗口 ， 以 便 可 以 将 其 顺利 切换 回来 。 而 且 ， 这 个 退 
后 二 线 的 窗口 可 能 还 有 临时 窗口 ， 而 且 临 时 窗口 可 能 还 有 临时 窗口 ， 
此 ， 疯 数 normal_client_get_transients 授 历 窗口 栈 ， 人 返回 这 个 退 捷 二 线 窗 
口 的 临时 窗口 组 成 的 链 ， 捕 捉 这 个 链 上 的 所 有 窗口 。 


(5) 设置 窗口 对 象 的 函数 指针 


创建 了 窗口 对 象 后 ， 显 然 需要 设置 操作 窗口 的 函数 指针 。 根 据 不 同 
的 窗口 关 型 ， 设 置 这 些 指针 指 网 不 同 的 函数 实现 。 对 于 标准 窗口 ， 设 置 
这 些 指针 指 癌 标准 窗口 的 实现 。 


(6) 更 新 根 窗口 的 属性 


新 窗口 上 “上 自然 人 ”信息 收集 完毕 后 ， 束 可 以 给 其 “ 洲 户 ”了 。 国 数 
normal _ client _ new 调用 stack_append_top 将 新 创建 的 窗口 对 象 压 入 winman 
目 己 维护 的 窗口 栈 。 


为 了 让 其 他 应 用 知晓 又 有 新 成 员 加 入 了 ， 当 然 需要 更 新 一 些 状 态 信 
号 ， 比 如 任务 条 束 时 刻 关 注 着 系统 中 应 用 的 变化 情况 。 一 个 是 记录 当前 
活动 窗口 的 属性 _NET_ACTIVE_WINDOW; 另外 一 个 是 记录 X 服 务 器 
中 所 有 窗口 的 列表 的 属性 _NET_CLIENT_LIST_STACKING。 这 两 个 属 
性 都 是 EWMH 标 准 规 定 的 ， 它 们 都 是 根 窗口 的 属性 。 函 数 
normal_client_new 中 调用 的 两 个 子 图 数 ewmh_set_net_active window 和 


ewmh_update_net_client_list_stacking 肯 的 束 是 分 别 更 新 这 两 个 属性 。 


7.1.6 构建 窗口 闻 饰 


仅 给 窗口 “落户 ?还 是 不 够 的 ， 接 下 来 我 们 还 需要 为 窗口 构建 骤 钱 。 
除了 起 到 疾 化 作用 外 ， 这 些 痕 饰 还 是 用 户 和 应 用 的 窗口 乙 则 的 桥 光 。 用 
户 可 以 通过 标题 芒 移 动 窗口 位 置 ， 可 以 通过 边框 改变 窗口 太 寸 ， 可 以 点 
击 最 大 化 按钮 将 窗口 最 大 化 ， 可 扣 击 最 小 化 按钮 将 窗口 最 小 化 ， 可 以 扩 
击 天 闭 按钮 天 闭 和 窗口 。 


在 创建 了 窗口 对 象 后 ， 疯 数 wm_new_client 中 调用 窗口 对 象 中 孙 数 
站 针 reparent 指 同 的 疯 数 来 构建 窗口 装饰 。 对 于 标准 窗口 来 说 ， 构 建 徐 
口 装 饰 的 函数 是 normal_client_reparent， 代 码 如 下 : 


winman/src/normal client.c: 


static void normal client reparent (Client *c) 


{ 


XSetWindowAttributes attr; 
WinMan *wm = CGC->Wwm; 

int frame x, frame Yy;} 
XGOLOr tte, RE 


If (normal client calc geometry(c)) 
XMoveResizeWindow (wm->dpy, Cc->window, CcC->xX, C->Yy, 
c->width, c->height).,; 


XAllocNamedColor (wm->dpy, DefaultColormap (wm->dpy, 
wm->screen), LIGHTGRAY, &sc, &tc); 


attr.background pixel = sc.pixel; 
attr,.override redirect = True; 
attr.event mask = SubstructureRedirectMask 
| SubstructureNotifyMask 
| ExposureMask 
| ButtonPpressMask 
| ButtonReleaseMask 
| ButtonlMotionMask.; 
c->frame = XCreateWindow (wm->dpy, wm->root, 
C->X - BORDER WIDTH, 
CSY = BQORDER WIDIH = TITLEBAR HELGHT, 
Cc->width + BORDER WIDTH * 2, 
c->height + TITLEBAR HEIGHT + BORDER WIDTH * 2, 
CopyFromParent, CopyFromParent, CopyFromParent, 
CWOverrideRedirect | CWBackPixel | CWEventMask, 
&attr); 
XDefineCursor (wm->dpy, c->frame, 
XCreateFontCursor (wm->dpy, XC arrow)),; 


attr.event mask = ExposureMask; 
c->titlebar = XCreateWindow(...); 


Cc->rsz ul angle = XCreateWindow (wm->dpy, c->frame, 
0, 0, RSZ ANGLE SIZE, RSZ ANGLE SIZE, 0, 
CopyFromParent, InputOonly, CopyFromPparent, 
CWOverrideRedirect, &attr).; 


XDefineCursor (wm->dpy, cc->rsz ul angle, 
XCreateFontCursor (wm->dpy, XC ul angle) ) ; 


XLOowerWindow (wm->dpy, cc->rsz ul angle),; 


XAddToSaveSet (wm->dpy, c->window),; 


XReparentWindow (wm->dpy, c->window, c->frame, BORDER WIDTH, 
TITLEBAR HEIGHT + BORDER WIDTH); 


员 数 normal_client_reparent 执 行 的 主要 操作 如 下 : 
(1) 调整 窗口 位 置 和 尺寸 


在 显示 窗口 前 ，winman 调 用 函数 normal_client_calc_geometry 对 窗口 
的 位 置 和 尺寸 进行 了 一 些 合理 性 检查 。 对 于 某 些 不 合理 的 伸 ， 消 数 
normal_client_calc_geometry 会 进行 简单 的 修正 ， 比 如 不 能 允许 窗口 显示 
在 屏 和 大 的 可 见 范 围 之 外 。 如 果 经 过 了 疯 数 normal_client_calc_geometry 计 算 
发 现 窗口 确实 需要 修正 ，normal_client_reparent 则 调用 Xlib 的 疯 数 


XMoveResizeWindow 请 求 X 服 务 器 对 窗口 进行 调整 。 
(2) 创建 Frame 窗 口 


正 所 谓 “ 皮 之 不 存 ， 毛 将 址 附 ”"，Frame 作 为 承载 窗口 装饰 的 载体 ， 
normal_client_reparent 首 先 调用 Xlib 的 函数 XCreateWindow 来 创建 这 个 窗 
门 。Frame 的 父 窗 口 是 根 究 口 ;， 几何 尺寸 基于 应 用 的 项 层 窗口 的 尺寸 ， 
并 为 容纳 窗口 边框 以 及 标题 栏 等 预 留 出 空间 ; 其 他 如 窗口 类 型 等 属性 均 
采用 与 根 窗口 相同 的 值 即 可 ， 也 就 是 代码 中 的 为 函数 XCreateWindow 传 
递 参数 CopyFromParent 的 意图 。 


winman 通 过 结构 体 XSetWindowAttributes 设 置 了 Frame 寄 口 的 另外 


三 个 属性 : override_redirect、background_pixel 和 event_mask。 


override redirect 表示 窗口 是 否 接 受 窗 口 管理 。Frame 窗 口 ， 包 括 后 
面 的 标题 栏 等 其 他 装饰 窗口 ， 当 然 不 再 需要 窗口 管理 器 管理 ， 因 此 ， 
个 属性 设置 为 True。 


X 服 务 右 中 可 以 创建 一 个 或 者 多 个 颜色 映射 《Colormap ) ， 每 个 颜 
色 上 映射 就 是 一 个 数组 ， 数 组 中 的 每 个 元 系 代 表 一 个 颜色 。 颜 色 映 射 数 组 
的 大 小 ， 由 显示 器 的 色 深 决定 。 应 用 使 用 颜色 时 ， 首 先 要 根据 颜色 的 名 
字 ， 在 颜色 映射 中 找到 对 应 的 索引 ，X 将 这 个 过 程 称 为 分 配 颜色 如 网 7-8 
所 示 。 


Colormap 


Frame Buffer 








图 7-8 X 颜 色 映 射 


疯 数 normal_client_reparent 使 用 Xlib 的 水 数 XAllocNamedColor 分 配 


了 一 个 硕 色 ， 然 后 将 这 个 两 色 通 过 属性 background_pixel 指 定 为 Frame 窗 


口 的 背景 色 。 


winman 通 过 属性 event_mask 选 择 接 收 Frame 和 窗口 的 事件 。winman 依 
然 需要 拦截 应 用 的 顶层 窗口 的 请 求 、 获 取 它 们 的 某 些 通知 ， 而 应 用 的 顶 
层 窗口 已 经 成 为 Frame 的 子 窗口 了 ， 所 以 winman 需 要 接收 Frame 的 子 窗 
中 的 事件 ， 这 就 是 选择 Frame 和 窗口 的 事件 掩 码 SubstructureRedirectMask 
和 SubstructureNotifyMask 的 目的 。Frame 窗 口 也 需要 绘制 ， 所 以 选择 了 
ExposureMask。 事 件 掩 码 中 最 后 选择 接收 的 束 是 几 个 妃 标 事件 ， 
winman 按 照 下 面 的 逻辑 处 理 Frame 及 作为 其 子 窗口 的 各 个 装饰 窗口 间 的 
让 标 事件 。 


winman 仅 接收 Frame 的 鼠标 事件 ， 而 不 接受 其 他 冯 饰 窗口 的 鼠标 事 
件 。 所 以 ， 当 鼠标 事件 发 生 在 任何 竣 饰 窗口 上 时 ， 按 照 X 的 事件 传播 机 
制 ， 鼠 标 事件 最 终 都 会 在 窗口 树 中 同上 传播 到 Frame。 也 就 十 说 ， 
winman 最 终 接收 到 的 是 来 自 Frame 窗 口 的 鼠标 事件 ， 鼠 标 事 件 中 的 参数 
window 征 Frame， 但 是 subwindow 则 是 鼠标 事件 及 生 时 ， 鼠 标 指针 所 在 
的 真实 的 装饰 窗口 。 后 面 ， 当 处 理 鼠 标 事 件 时 ，winman 就 是 利用 鼠标 
事件 的 参数 subwindow 判 断 必 和 后 在 哪个 窗口 装饰 上 了 ， 从 而 判读 出 用 户 
的 意图 ， 比 如 是 关闭 窗口 ， 最 小 化 窗口 ， 抑 或 是 移动 窗口 等 。 


(3) 设置 Frame 窗 口 鼠 标 指针 形状 


Xlib 提 供 了 函数 XDefineCursor 为 窗口 设置 腿 标 指针 的 形状 ，winman 
将 Frame 窗 口 的 指针 设置 为 XC_arrow， 即 利用 的 箭头 形状 。 


(4) 创建 标题 柱 、 最 大 化 、 最 小 化 及 关闭 按钮 


winman 为 这 几 个 窗口 装饰 分 别 创 建 了 窗口 ， 基 本 与 创建 Frame 窗 口 
相同 。 它 们 的 父 窗口 是 Frame 窗 口 。winman 只 接收 这 几 个 窗口 的 Expose 
事件 ， 毕 葛 还 需要 在 按钮 上 绘制 图 标 。winman 也 无 需 为 这 几 个 窗口 定 


义 女 标 指 针 ， 它 们 使 用 与 父 窗 口 Frame 相 同 的 鼠标 指针 。 
(5) 创建 “改变 窗口 尺寸 ”指示 区 域 


接 下 来 winman 还 要 创建 几 个 幕后 英雄 ， 即 表面 提 到 的 以 rsz_ 开头 的 
几 个 窗口 。 这 几 个 窗口 的 目的 非常 单纯 ， 束 是 为 了 当 鼠 标 进 入 这 个 区 域 
上 时， 显示 特殊 的 女 标 指针 形状 ， 提 示 用 户 可 以 在 这 个 区 域 改变 窗口 尺寸 
| 


这 几 个 窗口 不 需要 显示 任何 内 容 ， 因 此 窗口 的 尖 型 设置 为 
InputOnly; 而 且 也 不 需要 接收 任何 事件 ， 所 以 无 须 人 设置 任何 事件 掩 码 ; 
它们 也 不 需要 接受 窗口 官 理 带 宫 理 ， 所 以 窗口 属性 override_redirect 变 置 
为 True。 


为 了 给 用 户 一 个 直观 的 所 示 ， 这 几 个 窗口 的 也 标 指针 分 列 设 置 为 不 
癌 的 形状 ， 比 如 窗口 正 上 方 的 鼠标 指针 设置 为 XC_top_side， 示 上 角 设 


置 为 XC_ul_angle， 等 等 。 


对 于 位 于 四 个 角 的 窗口 ，winman 还 调用 了 Xlib 的 函数 
XLowerWindow， 其 目的 是 什么 呢 ? 图 7-9 展 示 了 放大 了 的 窗口 右上 角 的 
区 域 ， 窗 口 rsz_ur_angle 是 正方 形 形 状 的 窗口 ， 但 是 我 们 希望 鼠标 指针 只 
有 落 在 图 中 使 用 灰色 标 出 的 区 域 时 才 人 允许 用 户 改 变 窗口 太 寸 。 并 且 窗 口 
rsZ_Ur_angle 不 应 该 遮挡 关闭 按钮 ， 导 致 其 失效 ， 因 此 winman 使 用 
XLowerWindow 将 rsz_ur_angle 置 于 窗口 栈 的 撒 部 ， 以 免 遮 挡 其 他 兄弟 窗 
面 下 


rsz_Ur angle 





图 7-9 放大 的 窗口 右上 角 区 域 


(6) 将 应 用 顶层 窗口 加 入 Save-set 


如 前 面 讨 论 的 ， 我 们 不 希望 winman 异 常 退出 时 ， 因 为 销毁 Frame 窗 


口 而 导致 作为 Frame 子 窗口 的 应 用 的 项 层 窗口 也 受 罕 连 ， 因 此 winman 调 
用 Xib 的 函数 XAddToSaveSet 将 应 用 的 顶层 窗口 加 入 到 save-set 中 。 


如 果 读 者 注释 挥 函 数 normal_client_reparent 中 的 XAddToSaveSet， 然 
后 笑 试 终止 窗口 宵 理 桌 ， 束 会 友 现 应 用 的 窗口 也 随 之 被 销 蜡 了 了。 


当 Ssave-set 中 的 窗口 被 销毁 时 ，X 服 务 亏 负责 从 save-set 中 将 它们 移 
除 。 因 此 ， 当 应 用 的 项 层 窗口 “扬长 而 去 ”时 ，winman 无 需 调 用 


XRemoveEromSaveSet 从 save-set 中 移 除 它们 。 
(7) 将 应 用 的 顶层 窗 口 作为 Frame 的 子 窗口 


Frame 窗 口 以 及 作为 其 子 窗口 的 其 他 装饰 ， 全 部 准备 完毕 。 最 后 ， 
疯 数 normal_client_reparent 调 用 Xlib 的 XReparentWindow 孙 数 将 Frame 作 
为 应 用 的 顶层 窗口 的 父 窗口 ， 完 成 最 后 一 击 。 


7.1.7 ”绘制 装饰 窗口 


在 7.1.6 市 中，winman 创 建 了 各 个 疙 饰 禄 口 ， 但 是 并 没有 为 各 疙 饰 
窗口 绘制 内 容 。 事 实 上 ， 即 使 winman 想 去 绘制 ， 也 是 有 心 无 力 。 基 于 X 
的 原理 ，X 服 务 硕 并 不 保存 窗口 的 内 容 ， 在 窗口 可 见 时 ，X 服 务 大 会 问 
应 用 报告 Expose 事 件 ， 应 用 收 到 这 个 事件 后 ， 开 始 绘制 。 人 否则 即使 应 用 
在 创建 究 口 时 目 说 目 话 地 进行 了 绘制 ， 也 会 密 丢 挥 。 


因此 ， 在 函数 wm_new_client 中 ， 在 构建 了 窗口 装饰 后 ， 调 用 了 窗 
口 对 象 中 国 数 指 针 show 指 同 的 函数 ， 请 求 X 服 务 器 进行 显示 。 对 于 标准 
窗口 来 说 ， 请 求 X 服 务 器 显示 窗口 是 normal _ client show， 代 人 码 如 下 : 


winman/src/normal client.c: 
static void normal client showlClient *c) 


WinMan *wm = C-»>WI; 


XMapWindow (wm->dpy, CcC->frame).; 
XMapSuUubwindows (wm->dpy, c->ftrame). 


在 接受 了 winman 的 显示 请 求 后 ，X 服 务 颖 将 同 winman 发 送 Expose 事 
件 。 收 到 Expose 事 件 后 ，winman 将 绘制 窗口 装饰 。 标 准 窗 口 的 处 理 
Expose 事 件 的 函数 如 下 : 


winman/src/normal client.c: 


static void normal client redraw(Client *c) 


WinMan *wm = C->Wwm; 
GC gc = XCreateGC (wm->dpy, wm->root, 0, 0); 


Pixmap cm close = XCreateBitmapFromData (wm->dpy, wm->root, 
close bits, close width, close height),; 


XSetForeground (wm->dpy, gc, BlackPixel (wm->dpy, wm->screen)).,， 


draw raised(wm, c->titlebar, 0, 0, 
c->width - TITLEBAR HEIGHT * 3, TITLEBAR HEIGHT) ; 


draw raised(wm, c->close btn, 0, 0, TITLEBAR HEIGHT, 
TITLEBAR HEIGHT).,; 

XSetClipMask (wm->dpy, gc, cm close),; 

XSetCTLDGOEEGILLIWn>GDY gy 2 Qs 

XFillRectangle (wm->dpy, c->close btn, gc, 0, 0, 
TITLEBAR HEIGHT, TITLEBAR HEIGHT) ; 

XSetClipMask (wm->dpy, gc, None);， 


draw raised(wm, c->frame, 0, 0, c¢c->width + BORDER WIDTH * 2, 
Cc->height + TITLEBAR HEIGHT + BORDER WIDTH * 2) ; 

draw lowered (wm, ¢->frame, BORDER WIDTH -= 2, BORDER WIDTH -= 2, 
c->width + 3, TITLEBAR HEIGHT + c->height + 3); 


XFreeGC (wm->dpy, gc); 


该 图 数 执行 的 主要 操作 如 下 : 
1) 为 标题 栏 绘制 边框 ， 使 标题 栏 看 上 去 更 下 立体 感 。 


2) 为 标题 柱 上 的 关闭 等 各 个 按钮 绘制 图 标 ， 并 为 它们 也 绘制 边 


3) 为 窗口 绘制 边框 。 


事实 上 ， 上 所谓 的 绘制 边框 融 是 在 窗口 馆 上 绘制 线条 ， 但 是 不 同 的 线 


条 使 用 不 同 的 项 色 ， 依 据 色 玫 来 产生 立体 感 。 图 数 draw_raised 和 
draw_lowered 吏 是 做 这 件 事 的 。 


对 于 标题 栏 上 关闭 等 按钮 的 图 标 ，winman 使 用 了 类 似 撼 码 的 方法 
来 绘制 。 以 函数 XFillRectangle 为 例 ， 在 默认 人 情况 下 ， 将 使 用 图 形 上 下 文 
(GC) 中 指定 的 前 景色 项 宛 赴 形 。 但 是 ， 如 泉 设置 了 GC 中 的 
clip_mask， 那 么 clip_mask 中 凡是 值 为 “1 的 位 ， 依 然 使 用 前 景色 项 克 ， 
但 是 值 为 <0” 的 位 则 不 会 进行 填 序 ， 如 图 7-10 所 示 。 


Root Window 
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XxFillRectangle 
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图 7-10 dlip_mask 使 用 示意 图 


7.1.8 配置 窗口 


通常 ， 我 们 在 编写 具有 图 形 界 面 的 应 用 程序 时 ， 在 显示 图 形 界面 之 
前 ， 一 定 会 设置 窗口 的 位 置 、 尺 十 或 者 边框 宽度 等 。 虽 然 恋 者 可 能 反 驶 
说 ， 我 们 有 时 并 没有 设置 这 些 啊 ?” 实际 上 ， 那 是 因为 如 GTK、QT 等 图 
形 库 已 经 帮 我 们 做 了 。 另 外 一 种 情况 是 在 应 用 运行 的 某 个 中 间 时 刻 ， 应 
用 也 可 能 会 改变 窗口 的 这 些 信 息 。 


X 将 这 些 信息 统称 为 窗口 配置 ， 包 括 窗口 的 位 置 、 宽 度 和 融 度 ， 过 
框 的 宽度 以 及 在 栈 中 的 位 置 。 


在 上 述 两 种 情况 下 ， 应 用 都 将 产生 配置 请 求 ，X 服 务 嚣 也 都 会 将 它 
们 重 定 问 给 窗口 管理 器 。 那 么 窗口 管理 器 如 何 区 分 这 两 种 情况 呢 ? 
winman 是 这 样 处 理 的 ， 当 收 到 X 服 务 占 音 定 同 来 的 配置 请 求 时 ，winman 
调用 函数 wm_find_client_by_window 遍 历 窗口 栈 ， 如 果 窗 口 栈 中 没有 一 
个 窗口 对 象 与 发 送 请 求 的 窗口 匹配 ， 束 说 明 这 个 窗口 尚未 被 管理 ， 否 则 
说 明 这 个 窗口 已 经 被 管理 了 。 


对 于 尚未 纳入 管理 的 应 用 的 窗口 ，winman 当 然 不 能 贸然 管理 ， 谁 
知道 未 来 它 是 仍 需 要 管理 呢 。 上 所 以 直接 请 求 X 服 务 硕 满足 其 需要 。 
winman 从 事件 XConfigureRequestEvent 中 提取 信息 ， 不 加 任何 修改 ， 完 
全 照搬 原来 的 配置 请 求 ， 使 用 Xlib 的 函数 XConfigureWindow 和 直接 代 奉 应 


用 回 X 服 务 右 发 出 配置 请 求 。 


对 于 已 被 管理 的 窗口 ，winman 调 用 具体 窗口 对 象 中 处 理 配 置 的 隙 
数 进行 具体 的 配置 。 相 关 代 但 如 下 : 


winman/src/main.c: 


static void wm handle configure request (WinMan *wm, 
XConfigureRequestEvent *e) 


汪 有 区 攻 5 5 了 

XWindowChanges xwc; 

int Dorder LE 

int screen width, screen height,; 


Cc = wm find client by window (wm, e->window); 
EE Oy 

XWC.X = ee->X; 

XWC.Y = 已 ->yY) 

xwc.width = e->width.; 


XConfigureWindow (wm->dpy, e->window, e->value mask, &xwc),; 
} else 
C->Configure (c, e); 


return; 


我 们 看 到 ， 当 winman 不 了 解 “ 政 情 ?时 ， 它 直接 调用 Xlib 的 函数 
XConfigureWindow 将 “皮球 ” 义 踊 给 了 X 服 务 右 。 而 对 于 已 经 在 目 己 向 控 
之 下 的 窗口 ， 则 调用 上 其 体 窗口 对 象 的 配置 处 理沙 数 进行 配置 。 以 标准 窗 
口 对 象 为 例 ， 函 数 指针 configure 指 向 normal_client_configure， 其 代码 如 
下 : 


winman/src/normal client.c 


static void normal client configure (Client *c, 
XConfigureRequestEvent *e) 


If (e->value mask & CWX) 
C->X = @->X; 


if (e->value mask & (CNX | CwY | cwwidth | CWHeight)) { 


normal client calc geometry (c); 
Cc->move resize (c); 


static void normal client move resize (Client *c) 
WinMan *wm = C->Wm; 
XMoveResizeWindow (wm->dpy, c->frame, ...); 


XMoveReslzeWindow (wm->dpy, cc->Wwindow, ...); 
XMoveWindow (wm- >dpy, c->close btn, :..); 


该 函数 的 核心 就 是 调用 Xlib 的 XMoveResizeWindow 系 列 函 数 ， 满 足 
窗口 的 配置 请 求 。 但 是 有 一 点 需要 注意 ， 因 为 应 用 的 顶层 窗口 的 配置 改 
创 了 ， 所 以 所 有 的 窗口 装饰 可 能 都 需要 进行 调整 。 


7.1.9 ”移动 窗口 


对 于 一 个 典型 的 时 面 应 用 来 说 ， 用 户 可 以 通过 拖 动 窗口 的 标题 栏 来 
移动 窗口 。 这 里 所 谓 的 “ 拖 动 ” 的 具体 动作 是 : 在 标题 栏 上 按 下 鼠标 左 键 
并 体 持 ， 然 后 移动 足 标 ， 下 到 释放 鼠标 。 


因此 ， 整 个 移动 窗口 的 过 程 可 以 划分 为 三 个 阶段 : 
1) 用 户 在 标题 栏 上 按 下 鼠标 左 键 并 保持 ; 

2) 用 户 移动 鼠标 ; 

3) 用 户 释放 鼠标 ， 移 动 结 


为 此 ， 结 构 体 Client 中 设计 了 布尔 变量 moving， 当 用 户 在 标题 栏 内 
按 下 鼠标 左 键 时 ，moving 将 被 置 为 True。 当 鼠标 移动 事件 发 生 时 ， 如 果 
变量 moving 为 True， 那 么 我 们 束 可 以 断定 用 户 和 是 在 移动 窗口 。 一 旦 用 户 
释放 了 鼠标 ，winman 将 moving 更 改 为 False。 


1. 按 下 鼠标 


一 且 收 到 了 忌 标 按 下 事件 ，winman 首 先 要 找到 鼠标 事件 发 生 在 哪个 
窗口 对 象 上 ，winman 中 封装 的 疯 数 wm_find_client_by_frame 束 是 做 这 件 
事 的 。 找 到 了 具体 的 窗口 对 象 后 ， 则 调用 这 个 窗口 对 象 的 指针 


button_press 指 回 的 函数 ， 代 人 码 如 下 : 


winman/src/main.c: 


static void wm handle button press (WinMan *wm, XButtonEvent *e) 


Client *c,; 


It (C = wm find client by frame (wm, 


e->window)) 
c->button press(c, e); 


我 们 还 是 以 标准 窗口 对 象 为 例 ， 其 处 理 女 标 按 下 事件 的 沙 数 是 
normal_client_button_press， 代 码 如 下 : 


winman/src/normal client.c: 


static void normal client button press (Client *c, XButtonEvent *e) 


} else if (e->subwindow == c->titlebar) { 
CcC->moving = True; 


C-Sanchor XxX: = eS>Xy 
Cc->anchor yY = e->Y; 


} else if (e->subwindow == Cc->rsz top side 


鸡 数 normal_client_button_press 检 奏 鼠 标 事 件 中 的 成 员 subwindow 古 
否 是 标题 栏 ， 如 果 是 ， 则 设置 窗口 对 象 的 noving 为 True。 访 者 可 能 有 个 
疑问 ， 如 果 用 尸 只 是 虚 早 一 枪 ， 马上 叉 释 放 了 孔 标 呢 ? 那 也 没有 什么 影 
啊 ， 因 为 winman 在 鼠标 释放 的 事件 处 理 函 数 中 ， 将 把 这 个 全 重 置 为 


False 。 


同时 ， 函 数 normal_client_button_press 将 鼠标 事件 发 生 的 位 置 记 录 到 


窗口 对 象 中 的 anchor_ x 和 anchor_y 中 。 注 意 ，winman 记 录 的 位 置 使 用 的 
古 窗 口内 部 坐标 ， 是 相对 于 窗口 原点 的 。 后 面 将 以 这 个 点 为 参考 ， 计 算 
窗口 移动 后 的 新 位 置 。 


2. 移 动 鼠 标 


在 收 到 鼠标 移动 通知 后 ，winman 首 先 还 是 要 找到 具体 的 窗口 对 
象 ， 然 后 调用 这 个 窗口 的 函数 指针 motion 指 同 的 函数 ， 代 公 如 下 : 


winman/src/main.c: 


static void wm handle motion notifyl(WinMan *wm, XMotionEvent *e) 


Client *c = wm find client by frame (wm, e->window); 


: 
c->motion(c, e); 


以 标准 窗口 对 象 为 例 ， 其 处 理 鼠 标 移动 事件 的 郴 数 是 
normal _ client motion， 代 人 码 如 下 : 


winman/src/normal client.c: 


Vold normal client motion(Client *c, XMotionEvent *e) 


WinMan *wm = C->Wwm; 
nt XX VV: WVIdENL. leqht; 
int frame x, frame Yy; 


if (c->moving) { 
frame Xx = e->X oot - C->anchor 式 ; 
frame Y = Be=2yY_ Foot = T=-sanchor Y; 


XMoveWindow (wm->dpy, Cc->frame, frame x, frame y); 


} else if (c->resizing area) |{ 


国 数 normal_client_motion 首 移 检 得 窗 口 对 象 中 的 变量 moving。 如 果 
moving 为 True， 则 说 明 用 户 正 在 拖 动 标题 栏 。 因 此 ， 其 根据 当前 的 鼠标 
所 在 的 位 置 以 及 在 鼠标 按 下 时 所 在 的 位 置 ， 即 窗口 对 象 中 的 变量 
anchor_ X 和 anchor_ y， 计 算出 窗口 新 的 位 置 ， 其 体 的 计算 方法 参见 图 7- 
11。 然 后 调用 Xlib 的 函数 XMoveWindow 移 动 窗口 。 


Root Window 
root Y - anchor Y 
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ee mE eC i 
anchor y | 


root x ' 





图 7-11 窗口 移动 位 置 计算 


看 过 上 和 面 的 实现 ， 读 者 可 能 会 有 个 疑问 : 一 定 要 设置 moving 吗 ? 不 
可 以 在 移动 时 根据 事件 中 的 子 窗口 (subwindow) 是 否 是 标题 栏 来 判断 
是 否 是 在 拖 动 标题 柱 吗 ?即将 下 面 的 语句 : 


1f (CcC->MmMOVvInNg) 
更改 为 : 
if (e->subwindow == CcC->titlebar ) 


党 采 是 不 可 以 。 原 因 是 ， 如 有 果 忌 标 移动 较 悍 ， 那 么 在 移动 时 鼠标 指 
针 会 一 直 沙 在 标题 栏 中 ， 这 没有 问题 。 但 是 如 采用 户 移动 得 非 负 快 ， 窗 
口 移 动 的 速度 跟 不 上 鼠标 ， 这 时 鼠标 所 在 的 子 窗 口 ， 即 鼠标 移动 事件 中 
的 成 员 subwindow， 或 者 是 0， 或 者 是 其 他 窗口 ， 总 之 ， 不 再 是 标 题 栏 
下 


3. 释 放 鼠 标 


在 收 到 鼠标 释放 事件 后 ，winman 首 先 找到 具体 的 窗口 对 象 ， 然 后 
调用 这 个 窗口 的 函数 指针 button_release 指 癌 的 疯 数 ， 代 码 如 下 : 


winman/src/main.c: 
static void wm handle button release (WinMan *wm, XButtonEvent *e) 


Client *c = wm find client by frame (wm, e->window),; 


1 《GC) 
c->button release(C，e) ; 


以 标准 窗口 对 象 为 例 ， 其 处 理 鼠 标 释 放 事 件 的 函数 下 


normal _ client button release， 代 码 如 下 : 


winman/src/normal client.c: 


static void normal client button release (Client *c, 
XButtonEvent *e) 


{ 


} else if (c->moving) f{ 
C->moVving = False,; 
} else if (c->resizing area) { 


当 鼠 标 释 放 时 ， 表 明 用 户 已 经 停止 移动 窗口 ，winman 将 窗口 对 象 


中 的 moving 标 志清 除 。 


7.1.10 ”改变 窗口 大 小 


改变 窗口 大 小 与 移动 窗口 的 操作 逻辑 上 基本 相同 ， 这 里 只 简要 讨论 
实现 的 逻辑 ， 就 不 再 列 出 具体 代码 了 ， 请 读者 自行 参考 随 书 光盘 中 附带 
的 源 代码 。 


在 用 户 按 下 器 标 事件 时 ， 将 鼠标 指针 所 在 的 标识 移动 区 域 的 窗口 ， 
也 融 是 结构 体 Client 中 以 rsz_ 开 头 的 窗口 ， 记 录 到 窗口 对 象 的 成 员 


resizing_area 中 。 


然后 ， 当 收 到 鼠标 移动 事件 时 ， 如 果 窗 口 对 象 的 成 员 resizing_area 
非 0， 那 就 说 明 用 户 正 在 试图 改变 窗口 大 小 。 根 据 resizing_area 与 8 个 标 
识 移动 区 域 的 窗口 对 比 ， 推 断 出 用 户 正 在 如 何 更 改 窗口 的 大 小 ， 然 后 计 
算出 窗口 改变 后 的 几何 信息 ， 请 求 X 服 务 器 改变 窗口 大 小 。 


当 鼠 标 释 放 时 ， 将 resizing_area 清 0。 


7.1.11 切换 窗口 


我 们 以 图 7-12 所 示 的 场景 为 例 来 讨论 窗口 之 间 的 切换 。 应 用 A 和 应 
用 B 分 别 为 两 个 X 应 用 ， 图 中 使 用 虚线 标识 的 是 应 用 创建 的 窗口 ， 实 线 
标 出 的 是 窗口 管理 器 创建 的 窗口 。A1 是 应 用 A 的 标准 类 型 的 顶层 窗口 ， 
A2 是 对 话 框 类 型 的 顶层 窗口 ， 且 A2 是 窗口 Al 的 临时 窗口 。B1 是 应 用 了 B 
的 标准 类 型 的 顶层 窗 口 ，B2 和 是 对 话 框 类 型 的 项 层 窗口 ， 且 B2 是 窗口 B1 
的 临时 窗口 。 初 始 状 态 X 时 ， 应 用 A 是 当前 活动 的 应 用 ;， 在 状态 为 Y 时 ， 
应 用 B 补 切换 为 当前 的 活动 应 用 。 
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南 要 考 夸 以 下 两 点 : 


窗口 管理 器 


9» 


用 时 


用 B 切 换 


当 将 应 


4 窗口 管理 器 不 应 限制 用 户 只 有 点 击 在 窗口 管理 器 完全 控制 的 装 
饰 窗口 上 才 可 以 切换 ， 即 使 鼠标 指针 沙 在 应 用 自己 创建 的 窗口 上 ， 如 Bl 
窗口 、B2 窗 口 ， 窗 口 管理 器 也 应 将 应 用 B 切 换 为 当前 活动 应 用 ， 


仿 窗口 管理 器 应 以 整个 应 用 为 单位 进行 切换 ， 即 将 应 用 B 的 所 有 窗 
口 都 移动 到 X 服 务 亏 窗口 栈 的 项 痕 。 切 换 完 成 后 ， 窗 口 的 栈 序 应 该 为 
B2-Bl-A2-,Al， 而 不 是 类 似 如 B2 -A2-Al-B1l。 


理解 了 上 面 两 点 后 ， 我 们 来 看 具体 的 切换 实现 ， 代 码 如 下 : 


winman/src/main.c: 


static void wm handle button press (WinMan *wm, XButtonEvent *e) 


Client *c. 
Client *topmost, 


If ((c = wm find client by frame (wm, e->window)) 
[|| (c = wm find client by window(wm, e->window))) { 
if (!c->trans for) { 
It (c != wm->active,) 
CcC->activate(c).; 
} else { 
topmost = transient get topmost (Cc) ; 
if (topmost != wm->active) 
Cc->activate (topmost) ; 


函数 wm_handle_button_press 中 与 切换 相关 的 主要 操作 如 下 : 


1) winman 首 先 在 窗口 栈 中 寻找 鼠标 点 击 事件 发 生 的 窗口 对 象 。 
winman 既 考虑 了 鼠标 可 能 点 击 在 窗口 管理 顺便 建 的 装饰 窗口 ， 也 考虑 


了 也 标 可 能 扣 击 在 应 用 创建 的 禄 口 的 情况 。 


2) 如 栗鼠 标 氮 击 的 窗口 不 是 临时 窗口 ， 并 且 也 不 是 当前 活动 的 窗 
中 ， 则 调用 函数 指针 activate 指 同 的 函数 进行 切换 。 


3) 但 是 如 采用 户 点 击 在 了 临时 窗口 上 ，winman 调 用 函数 
transient_get_topmost 一 直 找 到 非 临时 窗口 ， 如 果 这 个 非 临 时 窗口 不 是 当 
前 活动 的 窗口 ， 那 么 调用 函数 指针 activate 指 同 的 函数 进行 切换 。 


以 标准 窗口 为 例 ， 函 数 指针 activate 指 问 函 数 为 


normal client activate， 代 码 如 下 : 


winman/src/normal client.c: 


static void normal client activate(Client *c) 
WinMan *wm = C->wm; 
Item *trans, *1; 


stack remove (C) ; 
stack append top(c); 


trans = normal client get transients (c),; 
for’ (i 二 transy i 二 issnext) 1 
stack remove (i->client).,; 
stack append top(i->client); 
XUngrabButton (wm->dpy, Buttonl, 0, i->client->window),， 


} 


list free(&tzans) ; 
wm restack clients (wm),，; 


XUngrabButton (wm->dpy, Buttonl, 0, c->window); 
XAllowEvents (wm->dpy, ReplayPointer, CurrentTime); 


if (wm->active) { 
XGrabButton (wm->dpy, Buttonl, 0, wm->active->window, 
True, ButtonpressMask, GrabModeSync, 
GrabModeSync, None, None),， 


trans = normal client get transients (wm->active),; 
FB (六 ns i Ly 4 
XGrabButton(wm->dpy, Buttonl, 0, i->client->window, 
True, ButtonpressMask, GrabModeSync, 
GrabModeSync, None, None),， 


} 


list freel(l&ktrans); 


| 


wm->active = C; 
ewmh set net active window (wm->active),; 


该 函数 normal client activate 执 行 的 主要 操作 如 下 : 


1) 自 完 要 调整 锻 口 栈 序 ， 将 准备 激活 的 窗口 放 到 窗口 栈 的 最 项 


2) 如 果 和 窗口 还 有 临时 窗口 ， 那 么 也 要 将 临时 窗口 移动 到 栈 的 最 顶 
闹 。 因 为 临时 窗口 可 能 还 有 临时 窗口 ， 这 束 古 代码 中 for 循 环 的 目的 。 


3) 安排 好 窗口 的 栈 序 后 ， 函 数 normal_client_activate 调 用 函数 
wm_restack_clients 请 求 X 服 务 亏 重新 调整 窗口 栈 序 。 男 数 
wm _ restack_clients 就 是 将 winman 的 窗口 栈 中 的 窗口 按照 Xib 的 函数 
XRestackWindows 的 参数 格式 组 织 好 ， 然 后 调用 Xlib 的 函数 
XRestackWindows 问 XX 服务 颖 友 出 调整 请 求 。 从 这 里 我 们 再 次 深刻 地 体 
会 到 XX 宋 略 和 机 制 的 分 离 冰 学 : X 服 务 占 人 负 贡 其 体 的 切换 窗口 的 动作 ， 
但 是 ， 各 个 窗口 的 前 后 顺序 如 何 排列 这 个 脓 略 由 窗口 管理 器 来 负责 。 


4) 切换 窗口 后 ，winman 还 有 一 件 事 情 要 做 ， 那 就 是 取消 捕捉 刚刚 
普 升 的 活动 窗口 。 捕 换 的 目的 是 为 了 接收 非 当 前 活动 窗口 的 鼠标 事件 ， 
而 对 于 当前 活动 的 窗口 显然 没有 必要 继续 捕捉 了 。 而 且 如 果 不 取消 捕捉 
窗口 的 鼠标 事件 ， 那 么 每 次 点 击 窗口 时 ， 鼠 标 事 件 都 会 送 给 winman, 这 
显然 是 没有 必要 的 ， 而 且 徒 增 X 服 务 嚣 和 窗口 管理 器 之 间 的 通信 和 量 


5) 接 下 来 ， 函 数 normal_client_activate 调 用 Xlib 的 函数 
XAllowEvents 放 行 捕捉 的 鼠标 事件 。 这 个 事件 丈 像 一 个 接力 棒 一 样 ， 在 
winman 中 逗留 了 一 疾 ， 叉 回 到 其 真正 属于 的 应 用 ， 不 人 至 于 造成 事件 于 
失 。 但 是 前 提 是 捕捉 时 必须 使 用 同步 模式 。 


6) 有 放 束 要 有 抓 ， 这 样 才能 张 闻 有 上 度 。winman 圾 要 捕捉 上 一 个 活 
动 但 是 坪 上 就 变 为 非 活 动 的 窗口 ， 包 括 其 临时 窗口 。 可 见 winman 个 仪 
只 “ 见 新 人 突 ”， 也 “ 邮 旧 人 类 


7) 最 后 ，winman 更 新 了 根 窗 口 的 属性 
_NET _ ACTIVE WINDOW。 因 为 有 些 应 用 可 能 会 通过 根 窗口 的 这 个 局 
性 获取 当前 的 活动 窗口 ， 比 如 后 面 的 窗口 组 件 任 务 条 。 


7.1.12 ”最 大 化 /最 小 化 /关闭 窗口 


本 节 我 们 讨论 最 大 化 、 最 小 化 及 关闭 窗口 的 相关 知识 。 
1. 最 小 化 窗口 


最 小 化 窗口 本 质 上 就 是 取消 窗口 的 显示 ，Xlib 为 此 提供 了 相应 的 函 
数 XUnmapWindow。 当 取消 某 个 窗口 的 显示 时 ， 同 时 也 需要 取消 其 临时 
窗口 的 显示 ， 代 人 码 如 下 : 


winman/src/normal client.c.: 
static void minimize window(Client *ce) 


WinMan *wm = 已 ->Wm， 


XUnmapWindow (wm->dpy, c->frame).; 


Item *trans = Hormal client get transientes(c); 
Item *]1; 
for (1 = trans: 1; 1 = 1->next) 


XUnmapWindow (wm->dpy, 1i1->client->frame).， 
list. free(&trans): 


如 果 取 消 了 一 个 窗口 的 显示 ， 那 么 如 何 再 恢复 它 的 显示 呢 ? 在 7.2 
节 ， 我 们 再 来 讨论 这 个 问题 。 


2. 最 大 化 /恢复 窗口 


所 谓 的 最 大 化 /恢复 窗口 ， 本 质 上 融和 是 使 用 Xlib 的 类 似 如 
XMoveResizeWindow 的 水 数 调整 窗口 位 置 和 大 小 ，winman 中 代码 中 对 


应 的 实现 是 maximize window 了 函数 。 


唯一 需要 指出 的 就 是 ，winman 自 定义 了 属性 
_CUSTOM_WM_RESTORE_GEOMETRY， 在 最 大 化 之 前 将 窗口 的 几何 
信息 ， 包 括 位 置 、 高 度 和 宽度 ， 都 记录 到 窗口 的 属性 中 。 为 什么 要 在 窗 
口 的 属性 中 记录 ， 不 是 都 已 经 记录 到 窗口 对 象 中 了 吗 ? 试想 一 下 ， 如 采 
不 在 窗口 的 属性 中 记录 ， 而 只 是 记录 在 窗口 管理 占 中 ， 一 旦 窗口 管理 器 
异常 退出 ， 那 么 一 切 状态 信息 将 随 看 窗口 官 理 嚣 灰飞烟灭。 为 了 窗口 官 
理 亏 再 次 局 动 时 能 获得 这 些 信息 ， 将 这 些 信息 保存 在 窗口 中 是 一 个 合理 


的 办 法 。 


类 似 地 ， 在 最 大 化 /恢复 窗口 时 ，winman 也 更 新 了 窗口 的 另外 两 个 
属性 NET_WM_STATE_MAXIMIZED_VERT 和 


NET WM STATE MAXIMIZED HORZ。 
3. 天 闭 窗口 


ICCCM 规 范 规 定 ， 当 关闭 窗口 时 ， 窗 口 管理 器 应 该 发 送 消息 
WM_DELETE_ WINDOW 给 应 用 ， 而 不 是 越 姐 代 应 地 请 求 X 服 务 右 去 销 
毁 应 用 的 窗口 。 因 为 应 用 收 到 消息 WM_DELETE_WINDOW 后 ， 可 以 做 
一 些 善后 处 理 ， 然 后 在 请 求 X 服 务 器 关闭 窗口 。 


当然 ， 有 些 应 用 程序 不 是 很 守 规 宅 ， 尤 其 是 早期 使 用 Xlib 编 写 的 程 
序 ， 它 们 不 处 理 消息 WM_DELETE_WINDOW。 对 于 这 类 窗口 ， 也 只 能 
采用 简单 粗暴 的 方法 了 ， 直 接 使 用 Xlib 提 供 的 函数 XKillClient 断 开 应 用 
程序 到 X 服 务 器 的 连接 ， 这 也 束 意 味 着 整个 X 应 用 彻底 退出 执行 。 


那么 窗口 管理 器 如 何 得 知 应 用 是 否 处 理 了 事件 
WM_DELETE_ WINDOW? ICCCM 规 范 规定 ， 如 果 窗 口 自己 负责 销 
筑 ， 其 应 该 在 窗口 的 属性 WM_PROTOCOLS 中 设置 属性 
WM_DELETFE_WINDOW。 属 性 WM_PROTOCOLS 的 值 是 个 Atom 数 
组 ， 其 中 包括 多 个 属性 。 


我 们 来 看 一 下 winman 中 的 相关 代码 。 妆 用 户 点 击 天 闭 按 钮 时 ， 
winman 将 调用 函数 icccm delete window， 代 人 码 如 下 : 


winman/src/ewmh icccm.c: 


vold icccm delete window(Client *c) 
WinMan *wm = C->wm; 
Atom *protocols; 
int 1 Ww Found ss 0 
XEvent eV; 


jf (XGetWMProtocols (wm->dpy, Cc->window, &protocols, &n)) 
for {= Di; 1 < ny i++) 4 
If (protocols[i] == wm->atoms [WM DELETE WINDOW]) 
found++; 
break:; 


} 
| 


二 《PEGECECEO 开 中 
XFree (protocols); 


| 


EE (Founay) 1 
memset (&ev, 0, sizeof ev) ; 


ev.xclient.type = ClientMessage; 
ev .xclient .window = Cc->window; 


ev.xclient.message type = wm->atoms [WM PROTOCOLS],; 


ev .xclient.format = 32; 


ev.xclient.data.l1[0] = wm->atoms [WM DELETE WINDOWj :; 
] 


ev .xclient.data.,.l1[1] = CurrentTime:; 
XSendEvent (wm->dpy, Cc->window, False, 0L, 
} else 
XKillClient (wm->dpy, Cc->window), 


gd 


滑 数 icccm_delete_window 检 查 窗 口 的 属性 WM_PROTOCOLS， 寿 其 
中 包含 属性 WM_DELETE_WINDOW， 那 么 就 发 消息 


WM_DELETE_WINDOW 给 窗口 ， 耕 则 调用 Xlib 的 函数 XKillClient 直 接 


切断 应 用 和 X 服 务 器 的 连接 。 


无 论 是 采用 哪 种 方式 ， 最 终 窗 口 一 定 会 离 我 们 而 去 的 。 虽 然 它 
们 “ 轻 轻 的 走 了 ， 不 带 走 一 片 云彩 ”， 但 是 winman 还 是 要 做 一 些 必 要 的 善 


{ 
人 


后 处 理 的 ， 最 起 合 ， 要 把 代表 窗口 的 对 象 释放 了 吧 。X 服 务 右 在 销毁 窗 
口 后 将 会 及 送 通 知 UnmapNotify 给 窗口 管理 硕 ，winman 在 这 个 事件 的 处 
理沙 数 中 为 离 去 的 窗口 “ 销 尸 ”。 以 标准 窗口 为 例 ， 其 对 应 的 “ 销 尸 ”函数 
如 下 : 


winman/src/normal client .ce: 


static void normal client LIemove (CL1LIent *C) 


WinMan *wm = CcC->wm; 
stack remove tc) ; 


XReparentWindow (wm->dpy, c->window, wm->root, c->x, C->y),; 


if(c->frame) 


XDestroyWindow (wm->dpy, c->frame).,， 


if (cc == wm->active) { 


wm->active = stack get first nontransient (wm) ; 


if (wm->active) { 


XUngrabButton (wm->dpy, Buttonl, 0, wm->active->window),，; 


Item *trarns = 


normal client get transients (wm->active),; 
Item *1; 
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XUngrabButton(c->wm->dpy, Buttonl, 0, 


i->client->window); 
list free(&trans),; 


ewmh set net active window (wm->active).,; 


ewmh update net client list stacking (wmy) :; 


free l(c).; 


国 数 normal_client_ remove 执 行 的 主要 操作 如 下 : 
1) 首先 从 窗口 栈 中 将 窗口 对 应 的 窗口 对 象 移 除 。 


2) 让 根 窗口 收容 应 用 的 窗口 。 为 什么 要 做 这 么 一 件 事 呢 ? 因为 有 

些 窗 口 只 是 暂时 取消 显示 ， 比 如 我 们 经 各 进行 的 最 小 化 窗口 。 所 以 如 栗 
个 将 应 用 的 窗口 从 Frame 窗 口 拆除 ， 那 么 接 下 来 销毁 Frame 时 ， 应 用 的 窗 
口 作为 Frame 窗 口 的 子 窗 口 ， 也 将 一 并 被 销毁 。 


3) 安全 的 将 应 用 的 窗口 从 Frame 寄 口 脱离 后 ，normal _ client _ remove 
调用 Xlib 的 函数 XDestroyWindow 销 毁 了 Frame 等 装饰 窗口 。 


4) 如 有 末 销 毁 的 窗口 是 当前 的 活动 窗口 ，winman 将 在 窗口 栈 中 试图 
找到 下 一 个 非 临时 窗口 作为 当前 活动 的 窗口 。 如 果 找 到 了 ， 那 么 余下 要 
做 的 就 和 切换 窗口 类 似 了 。 


5) 当前 活动 窗口 变化 了 ， 窗 口 列表 也 变 了 。 函 数 
normal_client_remove 调 用 相应 的 函数 更 新 根 窗口 的 属性 。 这 方面 的 内 容 
前 面 已 多 次 见 过 ， 这 里 就 不 再 讨论 了 。 


7.1.13 ”管理 已 存在 的 窗口 


在 窗口 管理 咒 局 动 之 前 ， 可 能 有 一 些 应 用 已 经 在 运行 。 因 此 ， 在 窗 
口 管理 器 局 动 时 ， 和 需要 管理 这 些 已 存在 的 窗口 。 这 就 是 winman 的 礼 始 
化 时 调用 函数 init_clients 的 目的 。init_clients 的 实现 代码 如 下 : 


winman/src/main.c: 


static void init clients (WinMan *wm) 
Client *c,， 
XWINndowaAttributes Sttrs 
Window root, parent, *children,; 
unsigned int n, i; 


XQuUeryTree (wm->dpy, wm->root, &root, &parent, &children, &n); 


for (六 和 和 | 
if (XGetWindowAttributes (wm->dpy, children[i], &attr)) { 
if (attr.override redirect == False 
&& attr.map state == IsViewable) { 
Cc = wm new client (wm, children [1L]j) ; 
:| 


Cc->lgnore unmap++; 


} 


区 
XFree (Childaren) ; 


国 数 init_clients 执 行 的 主要 操作 如 下 : 


1) 调用 Xlib 的 函数 XQueryTree 人 友人 询 根 窗口 的 子 窗口 ， 参 数 children 
指 回 保存 子 窗口 的 内 存 区 ， 变 量 n 记 录 子 窗口 的 数量 。 


2) 人 退 历 根 窗 口 的 子 窗口 ， 如 果 窗 口 的 属性 override_redirect 的 值 为 


False， 则 表明 窗口 需要 窗口 管理 玲 管 理 ， 然 后 检 奏 窗口 的 显示 状态 ， 如 
果 值 是 IsViewable， (IsViewable 表 示 的 意思 是 "Window is viewable"， 而 
不 是 "Is window viewable?") ， 则 表示 窗口 是 可 见 的 ， 那 么 init_clients 
就 调用 函数 wm_new_client 开 始 管理 窗口 。 


3) 将 变量 ignore_unmap 昧 加 1。 为 什么 需要 这 么 一 个 变量 ， 并 且 这 
里 将 其 累加 1 呢 ? 对 于 这 些 窒 口 ， 在 窗口 管理 需 局 动 前 ， 它 们 已 经 是 可 
见 的 。 而 为 了 管理 这 些 窗口 ， 窗 口 管理 器 将 使 用 Frame 窗 口 作为 它们 的 
父 窗 口 ， 因 此 它们 当然 要 首先 从 根 窗 口 和 剥离 了 。 换 名 话说，X 服 务 需 需 
要 将 窗口 从 窗口 树 中 当前 的 位 置 删除 ， 并 插入 到 新 的 位 置 。X 当 然 不 想 
让 人 看 到 它 的 这 个 小 动作 ， 因 此 ， 在 执行 这 个 过 程 前 ，X 服 务 器 首先 取 
消 这 些 和 窗口 的 显示 ， 也 就 是 说 ，X 服 务 占 完 把 窗口 藏 起 来 ， 让 它们 不 可 
匈 ， 然 后 偷偷 措 摸 地 把 它们 移动 到 窗口 树 中 新 的 位 置 ， 移 动 完成 后 ， 再 
让 窗口 可 见 。 恰 恰 是 X 服 务 夯 的 这 个 将 窗口 设置 为 不 可 见 的 动作 这 来 了 
有 暴 燃 。 在 Xx 服务 问 取 消 窗 口 的 可 见 状态 时 ， 和 窗口 管理 右 将 收 到 通知 
UnmapNotify， 如 采 不 加 任何 甄别 ， 将 导致 nit_clients 刚 刚 管 理 的 窗口 又 
被 销 毁 。 显 然 ， 这 不 是 我 们 硕 望 的 ， 因 此 绪 构 体 Client 中 设计 了 变量 
ignore_unmap 来 包 略 这 个 特殊 的 UnmapNotify 事 件 。 


人 至此， 我 们 的 迷你 窗口 管理 管理 硕 开 有 发 完成 了 ， 我 们 将 其 复制 到 
vita 系 统 ， 并 使 用 如 下 命令 运行 : 


root@vita:~# XoOrg -retro -noreset & 
root@vita:~# export DISPLAY=:0.0 
root@vita:~# ./winman & 
root@vita:~# ./hello gtk & 


如 果 没 有 问题 ， 将 看 到 一 个 类 似 图 7-13 所 示 的 窗口 。 


下” 11.10 [正在 运行 ] - Oracle VM VirtualBox 


Hello GTK! 





图 7-13 窗口 管理 器 


根据 图 7-13 中 可 见 ，hello_gtk 的 窗口 不 再 是 一 个 光秃秃 的 裸 窗 口 


了 ， 瑟 被 汶 加 了 各 种 猴 饰 ， 看 上 去 更 有 立体 感 了 。 而 且 我 们 可 以 拖 住 标 
题 芒 移动 窗口 ， 也 可 以 改变 窗口 大 小 ， 可 以 关闭 窗口 ， 可 以 最 大 化 窗 
中 ， 但 是 一 旦 最 小 化 窗口 ， 就 骨 也 找 不 到 它 了 。 下 一 市 ， 我 们 构建 了 任 


务 条 来 解决 这 个 问题 。 


7.2 ”任务 条 和 呆 面 


从 最 初出 现在 果 面 环境 中 友 展 a 到 现在 ， 任 务 条 的 风格 也 在 不 断 地 友 
生 改 变 ， 但 依然 是 果 面 环境 的 重要 组 件 之 一 ， 只 不 过 表现 形式 并 不 一 定 
是 干 篇 一 健 。 


典型 的 任务 条 从 元 至 右 包括 “开始 按钮 “快速 局 动 栏 “任务 
项 ”以 及 “通知 区 域 ?。 用 户 通 过 “开始 投 钮 ?可 以 局 动 应 用 程序 ; “快速 局 
动 芒 ?中 放置 用 户 第 用 的 一 些 程序 ， 每 个 司 动 的 任务 都 有 一 个 “任务 
项 ” “通知 区 域 ” 主 要 用 来 显示 一 些 系 统 状 态 ， 比 如 显示 当前 的 输入 
法 、 网 络 状 态 等 。 


除了 任务 条 外 ， 一 般 的 更 面 环境 都 有 一 个 背景 ， 并 且 在 这 个 冰 景 
面 可 以 显示 一 些 快捷 方式 ， 可 以 显示 一 些 很 有 个 性 的 小 插件 。 


本 章 中 ， 我 们 实现 了 一 个 简单 的 任务 条 和 一 个 桌面 。 不 同 的 梨 面 环 
境 ， 实 现 这 些 组 件 的 逻辑 不 尽 相 同 ， 有 的 是 放 在 一 个 完整 的 程序 中 ， 有 
的 是 每 个 组 件 是 一 个 单独 的 程序 ， 我 们 采用 后 者 。 我 们 通过 这 两 个 程序 
器 读者 展示 使 用 图 形 库 (GTK) 编程 。 相 比 于 Xlib，GTK 的 编程 理解 起 
来 要 容易 得 多 ， 而 且 GTK 的 官方 文档 写 得 也 非常 详尽 ， 所 以 我 们 就 不 浪 
费 篇 幅 讨 论 有 关 GTK 的 编程 了 ， 这 里 仅 讨 论 其 中 与 窗口 管理 器 相关 的 部 


站 
站 
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7.2.1 标识 任务 条 的 身份 


虽然 任务 条 也 是 一 个 普通 X 应 用 ， 但 是 作为 果 面 环境 中 重要 的 一 个 
组 件 ， 还 是 有 一 些 特殊 的 地 方 。 比 如 ， 在 我 们 构建 的 果 面 环境 中 ， 窗 口 
管理 需 将 其 俘 靠 在 屏 攻 的 最 下 方 。 但 是 任务 条 如 何 同 winman 腕 明 目 己 
的 任务 号 份 呢 ?读者 一 定 已 经 猜 到 了 : 属性 。 任 务 条 自 定 义 了 属性 
_CUSTOM_WM_WINDOW_TYPE_TASKBAR， 在 启动 时 ， 其 将 窗口 的 
属性 _NET_WM_WINDOW_TYPE 设 置 为 属性 
_CUSTOM_WM_WINDOW_TYPE_TASKBAR， 如 下 代码 所 示 : 


taskbar/src/main.c: 


Lt WORLDNG dra char waremlL)) 


( 


XChangeProperty (taskbar->dpy, wid, 
taskbar->atoms[ NET WM WINDOW TYPE], 
XA ATOM, 32, PropModeReplace, (unsigned char *) 
&taskbar->atoms[ CUSTOM WM WINDOW TYPE TASKBAR], 1); 


winman 一 旦 发 现 窗 口 的 类 型 为 
_CUSTOM WM WINDOW TYPE TASKBAR， 则 将 其 作为 任务 条 管 
理 ， 让 我 们 回顾 一 下 winman 中 给 “窗口 ” 洛 户 的 相关 代 伍 : 


winman/src/main.c: 


static Client* wm new client (WinMan *wm, Window win) 


人 


status = XGetWindowProperty (wm->dpy, win, 
wm->atoms[ NET WM WINDOW TYPE], 
0, 1, False, XA ATOM, &type, &format, &n, 
tkextra, (unsigned char **)&value), 
else if (valuel0] == 


wm- >atoms [ CUSTOM WM WINDOW TYPE TASKBAR]) 
C = taskbar client new(wm, win); 


如 果 winman 发 现 窗口 的 类 型 是 
CUSTOM WM WINDOW TYPE TASKBAR，winman 将 不 再 创建 标 
准 窗 口 的 对 象 ， 而 是 创建 一 个 任务 条 窗口 对 象 ， 代 人 码 如 下 : 


winman/src/taskbar client.c: 


Client* taskbar client newl(WinMan *wm, Window win) 


{ 
Ge ws is 
Cc->y = DisplayHeight (wm->dpy, wm->screen) - TASKBAR HEIGHT ; 
c->width = DisplayWidth (wm->dpy, wm->screen),， 
c->height = TASKBAR HEIGHT ; 


XMoveResizeWindow (wm->dpy, win, Cc->x, CcC->y, CcC->width, 
c->height).,， 


Cc->reparent = &taskbar client reparent,; 


其 中 比较 有 趣 的 两 个 地 方 ， 我 们 需要 特别 关注: 


1) winman 将 任务 条 布局 在 特定 的 位 置 。 其 左 起 屏幕 最 左边 ， 


Et 
二 


为 整个 屏幕 。 高 度 为 TASKBAR HEIGHT， 这 个 宏 在 winman 中 定义 ， 值 
为 30 像 素 。 位 于 屏幕 的 底部 。 


2) 任务 条 的 构建 窗口 装饰 的 图 数 taskbar_client_reparent， 其 实现 如 
下 : 


winman/src/taskbar client .c: 


static void taskbar client reparent (Client *c) 


图 数 体 怎 么 是 空 的 ? 没 错 ， 任 务 条 不 需要 任何 产 饰 。 读 者 可 能 会 
问 ， 那 为 什么 定义 这 么 一 个 空 函数 体 ? 这 个 主要 是 出 于 面 问 对 象 实现 上 
的 考虑 ， 当 然 ， 条 条 大 路 退 岁 马 ， 了 乳 明 的 读者 也 可 以 不 需要 定义 这 么 个 
空隙 数 ， 而 是 采用 调用 前 判断 函数 指针 是 否 为 完 ， 等 等 。 


7.2.2 ”更 新 任务 条 上 的 任务 项 


前 面 我 们 看 到 ， 在 winman 中 ， 每 当 为 一 个 窗口 “ 洛 户 ?时 ，winman 
都 将 更 新 根 窗口 的 属性 _NET_CLIENT_LIST_STACKING。 因 此 ， 任 务 
条 利用 的 就 是 这 个 机 制 ， 监 测 根 窗口 属性 的 变化 ， 从 而 跟踪 系统 中 任务 
的 变化 ， 相 关 代 人 码 如 下 : 


taskbar/src/main.c: 


ijnt main(int argc, char *argv|l]) 


{ 


gdk window set events (root, GDK PROPERTY CHANGE MASK) ; 
gdk window add filter(root, root window event filter, taskbar).,; 


static GdkFilterReturn root window event filter (GdkXEvent 
*xevent, GdkEvent *event, gpointer data) 


XPropertyEvent *prop; 
Taskbar *taskbar = data; 


prop = (XPropertyEvent*)xevent,; 
} else if (prop->atom == 
taskbar->atoms[ NET CLIENT LIST STACKING|]) | 


taskbar setup items (taskbar).,; 
} else if (prop->atom == taskbar->atoms[ NET SHOWING DESKTOP]) 


在 任务 条 初始 化 时 ， 其 将 选择 根 窗 口 事件 掩 码 
PropertyChangeMask， 并 设置 根 窗口 的 属性 变化 事件 的 回调 函数 为 


root window_event filter。 如 此 ， 一 旦 根 窗 口 的 属性 发 生变 化 时 ， 任 务 


条 都 将 调 悉 。 


每 当 根 窗口 的 属性 NET_CLIENT_LIST_STACKING 发 生变 化 时 ， 
函数 taskbar_setup_items 就 读 取 根 窗口 的 该 属性 的 值 ， 获 取 目 前 系统 中 全 
部 的 窗口 列表 。 然 后 遇 历 这 个 列表 ， 更 新 任务 栏 。 为 了 简单 ， 该 函数 做 
了 很 多 简化 ， 比 如 只 要 窗口 类 型 是 
_NET_ WM_WINDOW_TYPE_ NORMAL， 并 且 也 没有 判断 窗口 是 否 是 
其 他 窗口 的 临时 窗口 ， 任 务 条 束 为 其 在 任务 条 上 创建 一 个 任务 项 。 


作为 果 和 面 环 境 的 核心 组 件 之 一 ， 在 果 面 环境 局 动 时 ， 任 务 条 十 站 完 
局 动 的 核心 组 件 之 一 。 理 论 上 ， 这 个 时 候 还 没有 应 用 局 动 ， 但 古 不 排除 
系统 运行 过 程 中 ， 任 务 条 重新 局 动 ， 谁 也 不 能 你 证 程序 完全 没有 bug。 
因此 ， 无 论 如 何 ， 任 务 条 还 是 有 必要 在 局 动 时 获取 系统 中 正在 运行 的 任 
务 ， 并 为 它们 在 任务 条 上 建立 相应 的 任务 项 。 这 个 过 程 请 读者 参考 随 书 
光盘 中 附 市 的 源 代 担 。 


7.2.3 激活 任务 


任务 条 的 为 外 一 个 主要 任务 束 是 将 最 小 化 的 ， 或 者 将 非 活 动 的 贸 口 
激活 为 当前 活动 窗口 。 


EWMH 规 范 规定 ， 如 果 一 个 X 应 用 硕 望 激活 夯 外 一 个 窗口 ， 可 以 通 
过 向 根 窗口 发 送 消息 NET_ACTIVE_WINDOW 来 实现 。 因 此 ， 在 我 们 
的 任务 条 中 ， 当 用 户 点 击 任务 按钮 时 ， 在 回调 函数 中 将 向 根 窗 口 发 送 
ClientMessage 事 件 ， 其 中 的 消息 类 型 为 NET_ACTIVE_ WINDOW， 代 
但 如 下 : 


taskbar/src/taskbar item.c: 


static VOLO taskbar item clicked cbhb(lTaskbarIltem *item, ...) 


| 
| 


ewmh send net active window (litem); 


taskbar/src/ewmh.c: 


void ewmh send net active window(TaskbarItem *item) 


{ 


XEvVvent ee; 


memset (&e, 0, sizeof (e)).， 

e.xclient .上 type = ClientMessage, 

e.xclient .window = item->win,; 

e.xclient .message type = 
ltem->taskbar->atoms|[ NET ACTIVE WINDOW]; 
e.xclient .format = 32,， 


XSendEvent (item->taskbar->dpy, GDK ROOT WINDOW(), False, 
SubstructureNotifyMask | SubstructureRedirectMask, &e); 


事实 上 上， 任务 条 发 给 根 窗口 ClientMessage 事 件 也 被 窗口 管理 颖 拦截 
了 。 读 者 可 能 有 个 疑问 : 窗口 管理 融会 收 到 应 用 友 给 根 窗口 的 类 型 为 
ClientMessage 的 事件 吗 ? 答案 是 肯定 的 。 因 为 EWMH 规 定 ， 
ClientMessage 对 应 的 事件 醒 但 是 SubstructureNotifyMask 和 
SubstructureRedirectMask， 而 窗口 管理 右 恰 恰 选 择 了 接收 


SubstructureNotify 和 SubstructureRedirect。 


winman 中 处 理事 件 ClientMessage 的 代 但 如 下 : 


winman/src/main.c: 


static void wm handle client message (WinMan *wm, 
XClientMessageEvent *e) 


{ 


} else if (e->message type == wm->atoms[ NET ACTIVE WINDOW]) { 
if (c = wm find client by window(wm, e->window)) { 
C->Show(C) :; 
C->act1lLVate(cC) : 


疯 数 wm_handle_dlient_message 检 查 消 居 的 类 型 ， 如 果 是 
_NET_ACTIVE_WINDOW， 则 调用 窗口 对 象 中 函数 指 夺 activate 指 癌 的 
函数 ， 将 事件 XClientMessageEvent 中 指定 的 窗口 切换 为 当前 活动 窗口 。 
具体 的 过 程 我 们 在 7.1.11 一 节 已 经 详细 讨论 了 。 


在 调用 activate 前 ， 浮 数 wm_handle_client_message 还 调用 了 滑 数 
show。 目的 是 什么 呢 ? 原因 是 窗口 可 能 上 次 被 最 小 化 了 ， 因 此 首先 需要 


请 求 X 服 务 紫 显示 这 个 窗口 。 


7.2.4， 遍 训 显 示 当 前 活动 任务 


当 茶 个 任务 成 为 当前 活动 任务 时 ， 任 务 条 需要 将 对 应 的 任务 项 特殊 
标识 一 下 。 那 么 任务 条 如 何 知 道 当 前 任务 已 经 发 生变 化 了 呢 ? 前 面 我 们 
看 到， 在 winman 中 ， 每 当 为 将 一 个 窗口 设置 为 当前 活动 窗口 时 ， 
winman 都 将 更 新 根 窗口 的 属性 _NET_ACTIVE_WINDOW。 看 到 这 里 
读者 一 定 明 日 7 了， 任务 条 的 处 理 过 程 与 7.2.2 届 基本 完全 相同 ， 相 关 代 码 
如 下 : 


taskbar/src/main.c: 


static GdkFilterReturn root window event filter ( 
GdkXEvent *xevent, GdkEvent *event, gpointer data) 


XPropertyEvent *prop; 
Taskbar *taskbar = data; 


prop = (XPropertyEvent*)xevent,; 


if (prop->atom == taskbar->atoms [ NET ACTIVE WINDOW]) { 
Window active win = ewmh get net active window (taskbar),; 


国 数 root window_event_ filter 用 于 检查 根 究 口 发 生变 化 的 属性 的 
值 ， 如 果 是 NET_ACTIVE_WINDOW， 说 明 当 前 活动 的 窗口 改变 了 ， 
任务 条 从 根 窗口 读 取 当前 活动 的 窗口 ， 然 后 将 其 在 任务 条 上 对 应 的 项 高 


有 党 避 不 。 


7.2.5 ”显示 桌面 


当 用 户 按 下 局 速 局 动 栏 上 的 时 示 果 面 按 钮 时 ， 将 把 果 面 至 示 到 所 有 
窗口 的 最 前 面 。 本 章 讨论 到 这 里 ， 我 想 谈 者 应 该 已 经 大 致 可 以 猜 出 这 个 
故事 的 脚本 了 : 


1) 任务 条 向 根 窗口 发 送 类 型 为 ClientMessage 的 事件 ，EWMH 规 范 


规定 这 个 事件 中 的 消息 类 型 为 NET SHOWING_DESKTOP。 


2) winman 请 求 X 服 务 妖 将 将 果 面 这 个 组 件 显 示 到 窗口 栈 的 最 上 


面 。winman 中 的 实现 与 切换 窗口 基本 完全 相同 。 


下 面 束 是 任务 条 中 当 用 户 点 击 显 示 时 面 按钮 后 及 送 消息 的 相关 代 
码 : 


Taskbar/src/ewmh.c: 


void ewmh send net showing destkop (Taskbar *taskbar) 


人 


XbEvent e; 


memset (&e, 0, sizeof (e)).， 

e.xclient .type = ClientMessage; 

e.xclient .message type = 
taskbar->atoms[ NET SHOWING _DESKTOP] ; 

e.xclient .format = 32; 

e.xclient .data.1[0] = 1，; 


XSendEvent (taskbar->dpy, GDK ROOT WINDOW(), False, 
SubstructureNotifyMask | SubstructureRedirectMask, &e),; 


7.2.6 ”桌面 


相 比 于 任务 条 ， 这 个 示例 的 蝎 面 程序 要 简单 很 多 。 而 且 ， 经 过 了 前 
面 任务 条 的 讨论 ， 我 想 读者 应 该 不 需要 笔者 冉 过 多 的 吵 唆 了 。 同 普通 应 
用 对 比 ， 其 比较 特殊 的 地 方 之 一 束 是 ， 要 问 和 贸 口 官 理 占 肝 明 目 己 的 里 
份 ， 代 人 码 如 下 所 示 : 


desktop/src/main.c: 


nt malnlint argc, char azgVL | 


( 


gtk window set type hint (GTK WINDOW (win)., 
GD 天 WINDOW TYPE HINT DESKTOP).; 


桌面 程序 使 用 标准 的 EWMH 规 范 规定 的 属性 
_NET_WM_WINDOW_TYPE_DESKTOP 标 识 该 程序 是 一 个 桌面 程序 。 
GTK 中 的 函数 gtk_window_set_type_hint 束 是 对 Xlib 的 水 数 
XChangeProperty 的 更 局 层 的 封闭， 我 们 和 直接 使 用 即 可 。 


winman 将 为 桌面 程序 创建 昌 面 窗口 对 象 ， 并 将 其 整个 铺 满 在 桌面 
背景 上 上。 同样 ， 昌 面 窗口 对 象 也 不 需要 装饰 ， 因 此 其 函数 


desktop_client_reparent 也 是 个 空 图 数 。 其 他 细节 ， 请 谈 者 参考 随 书 光盘 


中 附 市 的 源 代 但 。 


至 此 ， 一 个 基本 的 蝎 面 环境 束 已 经 搭建 完毕 了 ， 读 者 将 它们 安装 到 
vita 系 统 ， 然 后 使 用 如 下 命令 即 可 局 动 完整 的 果 面 环境 : 


root@vita:~# Xorg -retro -noreset & 
root@vita:~# export DISPLAY=:0.0 
root@vita:~# . /winman & 
root@vita:~# ./desktop & 
root@vita:~# ./taskbar & 


注意 ， 桌 面 程序 上 的 快捷 方式 "Hello World" 的 回调 函数 将 到 目 
录 /usrbin 下 寻找 程序 hello_gtk， 上 所 以 请 将 这 个 程序 复制 到 目录 /usrbin 
下 。 另 外 ， 也 请 确保 程序 taskbar、desktop 使 用 的 css 主 题 描 述 安装 在 正 
确 的 目录 下 。 如 果 过 到 麻烦 ， 请 读者 参考 随 书 光盘 中 附带 的 源 代码 。 


如 朵 一 切 正 第 ， 将 看 到 一 个 类 似 图 7-14 所 示 的 完整 果 面 环境 。 


11.10 [正在 运行 ] - Oracle VM VirtualBox 


Hello GTK! 





装 晶 乡下 自生 | 便 图 二 ctrl 
图 7-14 完整 的 桌面 环境 


这 是 一 个 经 典 的 PC 上 的 保 面 环境 。 加 面 下 方 是 个 任务 条 ， 其 最 左 
侧 是 个 “开始 ”按钮 。 然 后 紧 接着 是 快速 启动 栏 ， 其 中 包含 一 个 “显示 桌 
面 ”的 按钮 。 接 下 来 当然 就 是 各 个 任务 项 了 。 在 图 7-14 所 示 的 例子 中 ， 
我 们 运行 了 两 个 hello_gtk 程 序 ， 所 以 在 任务 条 上 有 两 个 任务 项 。 同 时 有 
一 个 程序 专门 负责 桌面 的 背景 ， 当 然 其 上 面 还 可 以 添加 各 种 程序 的 快捷 

方式 ， 比 如 这 里 添加 了 程序 hello_gt 的 快捷 方式 。 


什么 ? 没有 Dashboard (Mac OS X 的 很 有 特色 的 一 个 桌面 组 件 ) ? 
是 的 ， 这 是 一 个 很 简陋 的 加 面 环 境 。 但 是 通过 这 个 简陋 的 加 面 ， 我 们 已 
经 清楚 了 桌面 环境 的 基本 组 成 及 运行 原理 ， 接 下 来 ， 你 可 以 按照 意愿 随 
意 改造 ， 甚 至 可 以 添加 一 个 新 的 蝎 面 组 件 ， 但 是 记得 告诉 窗口 管理 器 将 
其 放 在 了 哪 一 个 特殊 的 位 置 。 


本 


虽然 如 今 的 梨 面 环境 越 来 越 个 性 化 ， 束 如 同 那 个 “开始 ”按钮 都 可 能 
消失 一 样 ， 但 是 事实 上 ， 这 些 都 是 表面 现象 。 如 条 你 对 众多 操作 系统 比 
较 了 解 ， 你 融会 知道 ， 它 们 本 质 上 完全 相同 ， 只 是 表象 不 同 而 已 ， 束 看 
你 是 合 足 够 乞 局 且 敢 于 创造 了 。 


第 8 革 Linux 图 形 原 理 探 讨 


在 第 6 草 和 第 7 草 中 ， 我 们 揭示 了 在 Linux 操 作 系 统 中 ， 图 形 系统 及 
果 面 环境 的 构成 。 这 一 革 ， 我 们 进一步 深入 ， 壬 试探 讨 Linux 的 图 形 原 
i 


本 质 上 ， 谈 及 图 形 原理 必 会 涉及 泻 染 和 显示 两 部 分 。 但 是 显示 过 程 
比较 简单 和 和 直接， 而 洽 染 过 程 要 复 洒 得 多 ， 更 单 要 的 是 ， 泻 染 军 扯 到 操 
作 系 统 内 部 的 组 件 更 多 ， 因 此 ， 本 章 我 们 主要 讨论 泻 染 过 程 。 我 们 不 想 
只 浮 于 理论 ， 绪 合 具 体 的 GPU 进行 讨论 更 有 助 于 深度 理解 计算 机 的 图 形 
原理 。 相 比 于 NV 及 ATI 的 GPU， 我 们 选择 相对 更 开放 一 些 的 Intel 的 GPU 
进行 讨论 。Pntel 的 GPU 也 在 不 断 的 演进 ， 本 书写 作 时 主要 针对 的 是 用 在 
Sandy Bridge 和 Ivy Bridge 架 构 上 的 Intel HD Graphics。 


显存 是 图 形 泻 染 的 基础 ， 也 是 理解 图 形 原 理 的 基础 ， 因 此 ， 本 章 我 
们 从 讨论 显存 开始 。 或 许 读者 会 说 ， 显 存 有 什么 好 讨论 的 ， 不 就 是 一 块 
存储 区 吗 ? 早已 是 陈 词 滥 调 。 但 是 事实 并 非 如 此 ， 通 过 显存 的 讨论 ， 我 
们 会 注意 到 CPU 和 和 GPU 融合 的 脚步 ， 会 看 到 它们 是 如 何 的 和 谐 共 圣 物理 
内 存 的 。 或 许 ， 已 经 有 GPU 和 CPU 完美 地 进行 统一 寻 址 了 。 


然后 ， 我 们 分 别 讨 论 2D 和 3D 的 演 染 过 程 。 在 其 间 ， 我 们 将 看 到 到 
展 何 谓 便 件 加 速 ， 我 们 也 会 从 更 深 的 层次 去 展示 3D 演 染 过 程 中 所 请 的 


Pipeline。 以 往 ， 很 多 教材 都 会 为 了 辅助 OpenGL 的 应 用 开 及 ， 多 少 从 理 
论 上 谈 及 一 点 Pipeline， 而 在 这 一 半 中 ， 我 们 从 操作 系统 角度 和 Pipeline 


进行 一 次 亲密 接触 。 


最 后 ， 我 们 讨论 了 很 多 读者 认为 神秘 而 阳 生 的 Wayland。 其 实 ， 
Wayland 既 不 神秘 也 不 陌生 ， 它 是 在 DRI 和 复合 扩展 发 展 的 背景 下 产生 
的 ， 基 于 DRI 和 复合 扩展 演进 的 成 果 。 从 某 个 角度 ，Wayland 更 像 是 去 
除了 基于 网 络 的 服务 右 / 客 户 端的 X 和 复合 管理 局 的 一 次 整合 。 


8.1 注 闪 和 显示 


计算 机 将 图 形 最 示 到 显示 设备 上 的 过 程 ， 可 以 划分 为 两 个 阶段 : 第 
一 阶段 是 往 染 (render) 过 程 ， 第 二 阶段 是 显示 (display)〉 过程， 如 图 


8-1 所 示 。 


DrawRectangle | Render 
(Drawable, X1， 一 和 


yl1, x2, y2) 





8.1.1 滨 染 


所 谓 簿 染 就 是 将 使 用 数学 模型 拍 述 的 图 形 ， 
如 "DrawRectangle(x1,y1,x2,y2)"， 转 化 为 像 系 阵 列 ， 或 者 叫 像 系数 组 。 
保 系 数组 中 的 每 个 元 系 古 一 个 闫 色 值 或 者 颜色 索引 ， 对 应 图 像 的 一 个 像 
素 。 对 于 X 窗 口 系统 ， 数 组 中 的 元 素 是 一 个 颜色 索引 ， 有 基体 的 凑 色 根据 
这 个 索引 从 颜色 映射 《Colormap ) 中 查询 得 来 。 


痊 染 通 音 义 倍 分 为 丙种 ， 一 种 演 染 过 程 是 由 CPU 完成 的 ， 通 种 称 为 


软件 泻 染 ， 另 外 一 种 是 由 GPU 完成 的 ， 通 常 称 为 硬件 泻 染 ， 也 就 是 我 们 
常常 提 到 的 硬件 加 速 。 


谈 及 渔 染 ， 不 得 不 所 的 为 外 一 个 关键 概念 束 是 帧 缓冲 
(Framebuffer) 。 从 字面 意义 上 讲 ，frame 表 示 屏 幕 上 的 某 个 时 刻 对 应 
的 一 巾 图 像 ，buffer 束 是 一 段 和 存储 区 了 ， 因 此 ， 在 狭义 上 ， 合 起 来 的 这 
个 词 束 是 指 存 储 一 帧 屏 磊 图像 像 系 数据 的 存储 区 。 


但 是 从 广义 上 ， 帧 缓冲 则 是 多 个 缓冲 区 的 统称 。 比 如 在 OpenGL 
中 ， 帧 缓冲 包括 用 于 输出 的 颜色 缓冲 〈Color Buffer) ， 以 及 辅助 用 来 创 
建 颜色 缓冲 的 深度 缓冲 〈Depth Buffer〉 和 模板 缓冲 〈Stencil Buffer ) 
等 。 即 使 在 2D 环 境 中 ， 帧 缓冲 这 个 概念 也 不 仅 指 屏幕 上 的 一 帧 图 像 ， 
还 包含 用 于 存储 命令 的 缓冲 〈Command Buffer) 等 。 每 一 个 应 用 都 有 自 
己 的 一 套 帧 缓冲 。 


在 OpenGL 环 境 中 ， 为 了 避免 演 染 和 显示 过 程 交 义 导致 冲突 ， 从 而 
出 现 如 撕 裂 (tearing，〉 以 及 闪烁 (flicker) 等 现象 ， 颜 色 缓 冲 又 被 划分 
为 前 缓冲 〈front buffer) 和 后 缓冲 (back buffer) 。 如 果 为 了 支持 立体 
效果 ， 则 前 缓冲 和 后 缓冲 又 分 别 划 分 为 左 和 右 各 两 个 缓冲 区 ， 我 们 不 讨 
论 这 种 情况 。 前 缓冲 和 后 绥 冲 中 的 内 容 都 是 像素 阵列 ， 每 个 像素 或 者 是 
一 个 颜色 值 ， 或 者 是 一 个 颜色 索引 。 只 不 过 前 缓冲 用 于 显示 ， 后 缓冲 用 


村 泻 染 。 


2D 可 以 看 作 3D 的 一 个 特例 ， 因 此 ， 我 们 将 2D 程 序 中 用 于 输出 的 组 
冲 区 称 为 前 缓冲 。 为 了 避免 至 义 ， 在 容易 引起 混 请 的 地 方 我 们 尽量 不 使 
用 这 个 多 义 的 帧 缓冲 一 词 。 


812 是 示 


一 般 而 言 ， 显 示 设 备 也 使 用 像 系 来 衡量 ， 比 如 屏 阁 的 分 辨识 为 
1366x768， 那 么 其 可 以 显示 1049 088 个 像素 ， 一 个 像素 对 应 屏幕 上 的 一 
个 点 ， 图 像 就 是 通过 这 些 点 显示 出 来 的 。 通 第 ， 图 像 中 一 个 像素 对 应 屏 
倚 上 的 一 个 像 双 ， 那 么 将 图 像 显 示 到 屏 秦 的 过 程 就 是 逐个 读 取 帧 缓冲 中 
存储 的 图 像 的 像素 ， 根 据 其 所 代表 的 颜色 值 ， 控 制 显示 器 上 对 应 的 点 显 
示 相 应 颜色 的 过 程 。 


通 币 ， 显 示 过 程 基本 上 要 经 过 如 下 几 个 组 件 ，， 显 示 控 制 需 
(CCRTC) 、 编 妈 嚣 (Encoder) 、 发 射 锅 (Transmitter) 、 连 接 需 


(CConnector) ， 最 后 显示 在 显示 器 上 。 
(1) 显示 控制 器 


显示 控制 器 负责 读 取 帧 缓冲 中 的 数据 。 对 于 X 来 说 ， 帧 缓冲 中 存储 
的 是 颜色 的 索引 ， 显 示 控 制 右 读 取 索引 值 后 ， 还 需要 根据 索引 值 从 闫 色 
了 映射 中 得 询 基体 的 颜色 值 。 显 示 控 制 苍 也 负责 产生 同步 信号 ， 典 型 的 如 
水 平 同步 信号 〈HSYNC) 和 垂直 同步 信号 〈VSYNC) 。 水 平 同步 信和 号 
目的 是 通知 显示 设备 开始 显示 新 的 一 行 ， 垩 直 同 步 信 号 通知 显示 设备 开 
台 显 示 新 的 一 帧 。 所 谓 同 步 ， 以 垂直 同步 信号 为 例 ， 我 们 可 以 这 样 来 通 
俗 地 理解 它 : 显示 控制 器 开始 扫描 新 的 一 帧 数据 了 ， 因 此 它 通 过 这 个 信 


号 告诉 显示 硕 开 始 显 示 ， 跟 上 我 ， 不 要 挥 队 ， 这 融 是 同步 的 意思 。 以 
CRT 蛙 示 需 为 例 ， 这 两 个 信号 控制 痢 电 子 枪 的 移动 ， 每 显示 完 一 行 ， 电 
子 枪 都 会 回调 到 下 一 行 的 开始 ， 等 竺 下 一 个 水 平 同步 信号 的 到 来 。 每 吕 
示 完 一 帧 ， 电 子 枪 都 会 回调 到 屏 疾 的 赤 上 有 角 ， 等 生 一 下 竺 直 同 步 信号 的 
到 来 。 


(2) 编码 规 


对 于 帧 绥 冲 中 每 个 像 系 ， 可 能 使 用 8 位 、16 位 、32 位 甚至 更 多 的 位 
来 表示 颜色 值 ， 但 是 对 于 具体 的 接口 来 说 ， 却 远 没有 这 么 多 的 数据 线 供 
使 用 ， 而 且 不 同 的 接口 有 不 同 的 格式 规定 。 比 如 对 于 VGA 接 口 来 说 ， 忆 
共 只 有 三 根 数据 线 ， 每 个 颜色 通道 占用 一 根 数据 线 ， 对 村 LVDS 来 说 ， 
数据 是 串 行 传输 的 。 因 此 ， 需 要 将 CRTC 读 取 的 数据 编码 为 适合 具体 物 
理 接 口 的 编码 格式 ， 这 束 古 编 公 右 的 作用 。 


(3) 友 射 器 


及 射 句 将 经 过 编 但 的 数据 转变 为 物理 信号 。 读 者 可 以 将 其 想象 成 : 
肥 味 此 将 1 转化 为 融 电 平 ， 将 0 转化 为 低 电 平 。 当 然 ， 这 只 是 一 个 形象 的 
说 法 。 


(4) 连接 器 


连接 器 有 时 也 被 称 为 端口 (Port) ， 比 如 VGA、LVDS 等 。 它 们 直 


大 十 六 EE 、 Dg A 和 
接连 接 独 显示 设备 ， 负 责 将 及 射 右 有 发 出 的 信号 传递 给 显示 设备 。 


mtel 的 GPU 集成 到 心 斤 组 中 ， 一 般 疫 有 专用 显存 ， 通 种 是 由 BIOS 从 
系统 物理 内 存 中 分 配 一 块 空间 给 GPU 作 专用 显存 。 一 般 而 言 ，BIOS 会 
有 个 默认 的 分 配 规则 ， 有 的 BIOS 也 会 为 用 户 留 有 接口 ， 用 户 可 以 通过 
BIOS 设 置 显存 的 大 小 。 如 对 于 具有 1GB 物 理 内 存 的 系统 来 说 ， 可 以 划分 


256MB 内 存 给 GPU 用 作 显 存 。 


但 是 这 种 静态 的 分 配方 式 带 来 的 问题 之 一 就 是 如 何平 衡 系统 与 显示 
占用 的 内 存 ， 究 竟 分 配 多 少 内存 给 GPU 才能 在 系统 常规 使 用 和 运行 图 形 
计算 密集 的 应 用 如 3D 应 用 ) 之 间 达 到 最 优 。 如 采 分 配给 GPU 的 显存 
少 了 ， 那 么 在 进行 图 形 处 理 时 性 能 必然 会 降低 。 而 单纯 提高 分 配给 GPU 
的 显存 ， 也 可 能 会 造成 系统 的 整体 性 能 降低 。 而 且 ， 过 多 的 分 配 内 存 给 
显存 ， 那 么 当 不 运行 3D 应 用 时 ， 就 是 一 种 内 存 浪费 。 毕 葛 ， 用 户 的 使 
用 模式 不 会 是 一 成 不 变 的 ， 比 如 对 于 一 个 程序 员 来 说 ， 在 编程 之 余 也 可 
能 会 玩 一 些 游 戏 。 但 是 我 们 显然 不 能 期 望 用 户 根据 具体 运行 应 用 的 情 
况 ， 每 次 都 进入 BIOS 修 改 内 存 分 配给 显存 的 大 小 。 


为 了 最 优 利用 内 存 ， 一 种 方式 就 是 不 再 从 内 存 中 为 GPU 分 配 固定 的 
显存 ， 而 是 当 GPU 需 要 时 ， 和 直接 从 系统 内 存 中 分 配 ， 不 使 用 时 束 归 还 给 
系统 使 用 。 但 是 CPU 和 GPU 毕 葛 是 两 个 完全 独立 的 处 理 硕 ， 虽 然 现 在 
CPU 和 GPU 正在 走 融合 之 路 ， 但 是 它们 依然 有 目 己 的 地 址 空间 。 显 然 ， 


我 们 不 能 允许 CPU 和 GPU 彼此 独立 地 去 使 用 物理 内 存 ， 这 样 必然 会 导致 
冲突 ， 也 正 是 因为 这 个 原因 ， 才 有 了 我 们 前 面 提 到 的 BIOS 会 从 物理 内 
存 中 划分 一 块 区 域 给 GPU， 这 样 CPU 和 GPU 才能 井 水 不 犯 河 水 ， 分 别 使 
用 属于 自己 的 存储 区 域 。 


8.2.1 动态 显存 技术 


为 了 解决 这 个 让 盾 ，Intel 的 开 肥 者 们 开 及 了 动态 显存 技术 
(Dynamic Video Memory Technology) ， 相 比 于 以 前 在 内 存 中 为 GPU 开 
尽 专 用 显存 ， 使 用 动态 显存 技术 后 ， 显 存 和 系统 可 以 按 需 动态 共 译 整个 
主 存 。 


动态 显存 中 关键 的 是 GART (graphics address remapping table) ， 也 
馈 称 为 GTT (graphics translation table) ， 它 是 GPU 直接 访问 系统 内 存 的 
关键 。 事 实 上 ， 这 是 CPU 和 GPU 的 融合 过 程 中 的 一 个 产物 ， 最 终 ，CPU 
和 GPU 有 可 能 完全 实现 统一 的 寻 址 。 


GTT 残 是 一 个 表格 ， 或 者 说 丈 是 一 个 数组 ， 表 格 中 的 每 一 个 表 项 占 
用 4 字 方 ， 或 者 指 问 物理 内 存 中 的 一 个 页面 ， 或 者 设置 为 无 效 。 整 个 
GTT 所 能 寻 址 的 范围 就 代表 了 GPU 的 逻辑 寻 址 空间 ， 如 512KB 大 小 的 
GTT 可 以 寻 址 512MB 的 显存 空间 (512K/4*4KB=512MB) ， 如 图 8-2 所 


修 。 
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这 是 一 种 动态 按 需 从 内 存 中 分 配 显 存 的 方式 ，GTT 中 的 所 有 表 项 不 
必 全 部 都 映射 到 实际 的 物理 内 存 ， 完 全 可 以 投 需 上 映射。 而且 当 GTT 中 的 
某 个 表 项 指向 的 内 存 不 再 被 GPU 使 用 时 ， 可 以 收回 为 系统 所 用 。 通 过 这 
种 动态 按 需 分 配 的 方式 ， 达 到 系统 和 GPU 最 优 分 享 内 存 。 内 核 中 的 
DRM 模 其 设 计 了 特殊 的 互 斥 机 制 ， 傈 证 CPU 和 GPU 独立 寻 址 物理 内 存 
时 不 会 及 生 冲 突 。 


我 们 注意 到 ，GPU 征 通过 GTT 访 问 内 存 的 《内 存 中 用 作 显 存 的 部 
分 ) ， 所 以 GPU 首先 要 访问 GTT， 但 是 ，GTT 也 是 在 内 存 中 。 显 然 ， 这 
又 是 一 个 先 有 鸡 还 是 先 有 香 的 问题 。 因 此 ， 需 要 另外 一 个 协调 人 出 现 ， 
这 个 协调 人 就 古 BIOS。 在 BIOS 中 ， 仍 然 策 要 在 物理 内 存 中 划分 出 一 块 
对 操作 系统 不 可 见 、 专 用 于 显存 的 存储 区 域 ， 这 个 区 域 通 常 也 称 为 


Graphics Stolen Memory。 但 十 相 比 于 以 前 动 辑 分 配 几 百 兆 的 专用 显存 给 
GPU， 这 个 区 域 要 小 多 了 ， 一 般 几 MB 就 足 疼 ， 如 我 们 前 面 讨 论 的 寻 址 
512MB 的 显存 ， 只 需要 一 个 512KB 的 GTT 表 。 


BIOS 人 负责 在 Graphics Stolen Memory 中 建 六 GTT 表 格 ， 初 始 化 GTT 


表格 的 表 项 


， 更 重要 的 是 ，BIOS 负 责 将 GTTI 的 相关 信息 ， 如 GTT 的 基 


址 ， 写 入 到 GPU 的 PCI 的 配置 寄存 需 (PCI Configuration Registers) ， 这 
样 ，GPU 可 以 直接 找到 GTT 了 。BIOS 中 初始 化 GTT 的 代码 大 致 如 下 : 


1 TECN 7) 4 

02 uint32 七 gfxMemAddr, gttMemStart,; 

03 volatile uint32 t *pGttEntry:; 

04 

O05 PCI WRITE(busno, deviceid, function number, 

06 PCI REG GTT, “GTT Base address” );， 
O07 

08 gfxMemAddr = “Graphics Stolen Memory Address” :; 
09 gttMemStart = “GTT Base Address” ， 

二 让 pGttEntry =“GTT Base Address” ， 

El: 

2 while (gfxMemAddr < gttMemStart) { 

13 *pGttEntry = (gfxMemAddr | 0x00000001);//addr + valid bit 
14 pGttEntry++; // next PTE 

15 gfxMemAddr += (4 * KB); // next page 

16 } 

区 | 

18 while (pGttEntry < pGttEnd) { 

19 *pGttEntry = 0; // mark entry invalid 

20 pGttEntry++; // next PTE 

这 } 

22 】 


在 上 面 代码 中 ， 变 量 gfxMemAddr 代 表 Graphics Stolen Memory 的 起 
始 地 址 ，gttMemStart 代 表 GTT 的 起 始 地 址 ， 指 针 pGttEntry 指 同 GTT 的 表 
项 。 代 人 码 第 8~10 行 初始 化 了 这 几 个 变量 ， 在 初始 化 时 ，pGttEntry 指 问 
GTT 表 的 开始 ， 为 后 面 填充 GTT 表 作 准 备 。 


BIOS 从 物理 内 存 的 最 顶 端 分配 一 块 区 域 作 为 Graphics Stolen 
Memory， 然 后 在 这 块 区 域 中 分 配 一 块 区 域 用 作 GTT， 并 将 GTIT 所 在 的 
地 址 写 入 GPU 的 PCI 的 配置 寄存 右 ， 见 代码 第 5~6 行 。 操 作 系 统 局 动 后 将 
从 这 个 寄存 器 中 恋 取 GTT 表 的 地 址 ， 其 中 PCL REG_GTT 表 示 GPU 中 用 
作 保 存 GTT 地 址 的 PCI 配 置 寄存 器 。 


在 初始 化 时 ，GTT 只 需要 上 映射 Graphics Stolen Memory 区域 即 可 ， 当 
然 GTT 占 用 的 空间 允 无 需 上 映射 了 。 人 代码 第 12~16 行 加 是 映射 GSM 中 除 
GTT 以 外 的 显存 的 ， 即 gfxMemAddr 到 jgttMemStart 之 间 的 部 分 。 


显存 的 其 余部 分 需要 时 动态 按 需 分 配 ， 所 以 代码 第 18~21 行 的 while 


循环 惑 是 将 GTT 中 的 表 项 设置 为 无 效 ， 亦 即 尚 未 分 配 蛙 人 存 。 


在 操作 系统 启动 后 ， 显 存 的 分 配 和 回收 就 由 操作 系统 负责 了 ， 因 此 
操作 系统 需要 访问 GTT。 但 是 ，GTT 存 储 在 操作 系统 不 可 见 的 Graphics 
Stolen Memory 中 ， 那 么 操作 系统 如 何 找到 GTT 呢 ?这 束 是 BIOS 将 GTT 
的 地 址 设置 到 GPU 的 PCI 配 置 寄 存 器 中 的 原因 。 在 操作 系统 司 动 后 ， 将 
从 GPU 的 PCI 配 置 寄存 器 中 获取 如 GTT 的 基 址 等 信息 ， 代 但 如 下 : 


linux-3.7.4/drivers/char/agp/intel-gtt.c: 


static const struct intel gtt driver i915 gtt driver = 1 
.gen = 3， 
.has pgtbl enable = 1, 
.Setup = 19xx setup, 
static const struct intel gtt driver sandybridge gtt driver = 1 


本 


statiec nt 19xx Setuplvoid) 


人 


if (INTEL GTT GEN == 3) 1 
u32 gtt addr; 


pci read config dword(intel private.pcideyv, 
I915 PTEADDR, &gtt addr); 
intel private.gtt bus addr = gtt addr; 
} else { 


在 内 核 中 ， 对 于 Intel 不 同系 列 的 GPU， 都 有 相应 的 GTT 驱 动 ， 比 如 
分 别 有 针 对 i8xx、i915、sandybridge 等 型 亏 的 GTT 豫 动 模块 。 


以 i915 系 列 的 GPU 为 例 ， 我 们 在 其 GTT 张 动 的 图 数 i9xx_setup 中 可 
见 ， 其 使 用 pci _read_config _ dword 从 GPU 的 PCI 的 配置 寄存 器 
I915_PTEADDR 中 读 取 GTT 的 基 址 等 相关 信息 ， 然 后 将 i9xx_setup 读 取 
的 GTT 的 地 址 保存 到 gtt_bus_addr， 这 个 变量 就 是 用 来 保存 GPU 的 GTT 的 
地 址 的 ， 后 面 我 们 在 讨论 显存 绑 定 时 会 再 次 见 到 这 个 变量 。 


当然 在 GTT 的 驱动 模块 中 ， 也 包含 操作 GTT 表 的 函数 ， 如 更 新 GTT 
表 项 的 图 数 write_entry， 后 面 在 讨论 Buffer Object 比 定 到 GTT 时 ， 我 们 会 


看 到 这 个 函数 。 


8.2.2 Buffer Object 


与 CPU 相 比 ，GPU 中 包含 大 量 的 重复 的 计算 单元 ， 非 常 适合 如 像 
素 、 光 影 处 理 、3D 坐 标 变换 等 大 量 同 类 型 数据 的 密集 运算 。 因 此 ， 很 
多 程序 为 了 能 够 使 用 GPU 的 加 速 功能 ， 都 试图 和 GPU 直接 打交道 。 
此 ， 系 统 中 可 能 有 多 个 组 件 或 者 程序 同时 使 用 GPU， 如 Mesa 中 的 3D 张 
动 、X 的 2D 驱 动 以 及 一 些 直接 通过 帧 缓冲 驱动 直接 操作 帧 缓冲 的 应 用 
等 。 但 是 多 个 程序 并 发 访问 GPU， 一 旦 逻辑 控制 不 好 ， 势 必 导 致 系统 工 
作 极 不 稳定 ， 严 重 者 甚至 使 GPU 陷入 一 个 混乱 的 状态 。 


而 且 ， 如 采 每 个 希望 使 用 GPU 加 速 的 组 件 或 程序 都 需要 在 目 身 的 代 
但 中 加 入 操作 GPU 的 代码 ， 也 使 开发 过 程 变 得 非常 复杂 。 


于 是 ， 为 了 解决 这 一 乱 象 ， 开 发 者 们 在 内 核 中 设计 了 了 DRM 模块 ， 
所 有 访问 GPU 的 操作 都 通过 DRM 统 一 进行 ， 由 DRM 来 统一 协调 对 GPU 
的 访问 ， 如 图 8-3 所 示 。 


Mesa 3D driver x 
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图 8-3 内核 中 的 DRM 模 块 


DRM 的 核心 是 显存 的 管理 ， 当 前 内 核 的 DRM 模 块 中 包含 两 个 显存 
管理 机 制 : GEM 和 TIM。TIM 先 于 GEM 开 发 ， 但 是 mntel 的 工程 师 认 为 
TITM 比 较 复 杂 ， 所 以 后 来 设计 了 GEM 来 替代 TTM。 上 有 目前 内 核 中 的 ATI 和 
NVIDA 的 GPU 驱 动 仍然 使 用 TTM， 所 以 GEM 和 TTM 还 是 共存 的 ， 但 是 
GEM 占据 主导 地 位 。 


GEM 抽 象 了 一 个 数据 结构 Buffer Object， 顾 名 思 义 ， 就 是 一 块 缓冲 
区 ， 但 是 比较 特别 ， 是 GPU 使 用 的 一 块 缓冲 区 ， 也 就 是 一 块 显 存 。 比 如 
一 个 颜色 缓冲 的 像素 阵列 保存 在 一 个 Buffer Object， 绘 制 命令 以 及 绘制 
所 需 数据 也 分 别 保存 在 各 自 的 Buffer Object， 等 等 。 笔 者 实在 找 不 到 一 


个 准确 的 中 文 词汇 来 代表 Buffer Object， 所 以 只 好 使 用 这 个 瑞 文 名 称 。 
开发 者 习惯 上 也 将 Buffer Object 简称 为 BO， 后 续 为 了 行文 方便 ， 我 们 有 
时 也 使 用 这 个 简称 ， 其 定义 如 下 : 

linux-3.7.4/include/drm/drmPp.h: 


struct drm gem object { 


struct flle *filp; 


nt name; 


| 
其 中 两 个 天 键 的 字段 是 flp 和 name。 
对 于 一 个 BO 来 说 ， 可 能 会 有 多 个 组 件 或 者 程序 需要 访问 它 。GEM 


使 用 Linux 的 共享 内 存 机 制 实现 这 一 需求 ， 字 段 人 p 指 同 的 瓯 是 BO 对 应 的 
共 孕 内存 ， 代 码 如 下 : 


linux-3.7.4/drivers/gpu/drm/drm gem.c: 


int drm gem object init(...) 


ob]j]->filp = shmem 五 Je setup("drm mm object", Bize, 。..); 


既然 多 个 组 件 需要 访问 BO，GEM 为 每 个 BO 都 分 配 了 一 个 名 字 。 当 
然 这 个 名 字 不 是 一 个 简单 的 字符 ， 它 是 一 个 全 局 唯一 的 ID， 各 个 组 件 使 


用 这 个 名 字 来 访问 BO。 


BO 可 以 占用 一 个 页 面 ， 也 可 以 占用 多 个 页 面 。 但 是 ， 通 常 BO 都 是 
占用 整数 个 页 面 ， 即 BO 的 大 小 一 般 是 4KB 的 整数 倍 。 在 i915 的 BO 的 疆 
构 体 定义 中 ， 数 据 项 pages 指 加 的 就 是 BO 占用 的 页 面 的 链表 ， 这 里 并 不 
是 使 用 的 简单 的 链表 ， 结 构 体 sg_table 使 用 了 散 列 技术 。 有 具体 代码 如 
下 : 


linux-3.7.4/drivers/gpu/drm/i915/i915 drv.h: 
struct drm i915 gem object |{ 


struct sg table *pages; 


为 了 可 以 被 GPU 访 问 ，BO 使 用 的 内 存 页 面 还 要 映射 到 GTT。 这 个 
映射 过 程 也 比较 直接 ， 束 是 将 BO 所 在 的 页 面 填 入 到 GTT 的 表 项 中 。 以 
i915 为 例 ， 下 和 面 这 个 函数 束 古 获取 BO 占据 的 页 面 : 


linux-3.7.4/drivers/gpu/drm/i915/i915 gem.c: 
StatLe, Tnt 
1915 gem object get pages gtt(struct drm 1915 gem object *ob]) 


人 


mapping = oOb]->base.filp->f path.dentry->d inode->1 mapping.,; 


for each sg(st->sgl, sg, page count, i) 1 
page = shmem read mapping page gfp (mapping, i1, gfp); 


sg set pagel(lsg, page, PAGE SIZE，0) ; 


| 


obj->pages = st,; 


注意 上 面 代码 中 使 用 黑体 标识 的 人 p， 它 指向 了 BO 对 应 的 共享 内 存 
区 。 显 然 ， 获 取 BO 的 页 面 实际 就 是 获取 这 块 共享 内 存 的 页 面 ， 代 码 中 
函数 shmem_read_mapping_page_gfp 就 是 做 这 件 事 的 。 当 然 BO 可 能 对 应 
多 个 页 面 ， 所 以 这 里 是 一 个 循环 ， 并 将 每 个 获取 的 页 面 放 到 散 列 表 中 ， 
最 后 使 BO 中 的 指针 pages 指 向 这 个 页 面 散 列 表 。 


将 BO 的 对 应 页 表 写 入 到 GTT 的 表 项 中 的 代码 如 下 : 


linux-3.7.4/drivers/gpu/drm/i915/i915 gem gtt.c: 


vod 91 gem gtt bind object tetruct drm 9L5. gem object obdFay 


{ 


intel gtt insert sg entries (obj]->pages, ...); 


员 数 intel_gtt_insert_sg_entries 在 内 核 的 Intel 的 GTT 驱 动 模块 中 ， 其 
实现 代码 如 下 : 


linux-3.7.4/drivers/char/agp/intel-gtt.c: 


Vold intel gtt insert sg entries (struct sg table *st, ...) 


{ 


for each sg(st->sgl, sg, st->nents, i) f 
len = sg dma len(sg) >> PAGE SHIFT,; 
for (m = 0; m < len; m++) { 
dma addr t addr = sg dma address(sg) + (m << PAGE SHIFT),; 
intel private.driver->write entry(addr, JjJ, flags); 
jr 


疯 数 intel_gtt_insert_sg_entries 人 授 历 BO 对 应 页 面 的 散 列 表 ， 依 次 调用 


GTT 了 驱动 中 的 函数 write_entry 将 页 和 面 的 地 址 写 入 到 GTT 的 表 项 中 。GPU 
当然 不 能 理解 CPU 使 用 的 虚拟 地 址 了 ， 所 以 函数 sg_dma_address 返 回 有 的 
是 页 面 的 物理 地 址 。i915 系 列 GPU 的 GTT 驱 动 的 write_entry 函 数 如 下 : 


linux-3.7.4/drivers/char/agp/intel-gtt.c: 
Btatie Const. struct iitel gtt driver 1915 gtt river = 1 
.Write entry = 1830 write entry, 


上 


static void 1830 write entry(dma addr t addr,unsigned int entry,...) 


人 


writel (addr | pte flags, inte] private.gtt + entry) ; 


函数 1830_write_entry 逻 辑 非 常人 简单 ， 尤 其 是 对 于 了 解 驱 动 的 读者 而 
言 更 是 如 此 ， 其 与 我 们 回 某 个 内 存 地 址 处 赋值 无 本 质 区 别 。 这 里 ，addr 
束 是 页 面 的 地 址 ，intel_private.gtt 是 GTT 的 其 址 ，entry 是 GTT 中 其 体 的 
表 项 。 


读者 可 能 有 个 疑问 : GTT 不 是 在 BIOS 划 分 给 GPU 专用 的 Graphics 
Stolen Memory 中 吗 ? 那么 CPU 怎么 可 以 寻 址 GTT， 更 新 GTT 的 表 项 呢 ? 
内 核 中 的 GTT 驱 动 模块 已 经 考虑 到 了 这 点 ， 在 GTT 模 块 初始 化 时 ， 其 使 
用 ioremap 将 GTT 所 在 地 址 映射 到 了 CPU 的 地 址 空间 ， 代 码 如 下 所 示 : 


linux-3.7.4/drivers/char/agp/intel-gtt.c: 
statics Lut Tntel. gtt Tt voLgy 


{ 


if (INTEL GTT GEN < 6 && INTEL GTT GEN > 2) 


intel private.gtt = ioremap wc( 
intel private.gtt bus addr, gtt map size),， 
if (intel private.gtt == NULL) 
intel private.gtt = ioremap(intel private.gtt bus addr, 


gtt map size); 


看 到 变量 gtt_bus_addr 古 不 是 很 熟悉 ? 没 错 ， 在 前 面 讨论 i915 的 GTT 
张 动 中 的 函数 i9xx_setup 时 我 们 看 到 ，i9xx_setup 从 GPU 的 PCI 配 置 寄存 
露 读 取 的 GTT 的 基 址 束 记 录 在 这 个 变量 中 。 


综 上 ， 我 们 看 到 ，BO 本 质 上 就 是 一 块 共 至 内 存 ， 对 于 CPU 来 说 BO 
与 其 他 内 存 没 有 任何 差别 ， 但 是 BO 又 是 特别 的 ， 它 被 映射 进 了 GTT， 
所 以 它 既 可 以 被 CPU 寻 址 ， 也 可 以 被 GPU 寻 址 ， 如 图 8-4 所 示 。 
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图 8-4 Buffer Object 


为 了 方便 程序 使 用 内 核 的 DRM 模 块 ， 开 发 者 们 开发 了 库 libdrm。 在 
库 libdrm 中 BO 的 定义 如 下 : 


libdrm-2.4.35/intel/intel putmg .了 : 
struct drm intel bo 1 

long offset,; 

a *1rtual:; 


上 
其 中 两 个 重要 的 数据 项 是 offset 和 virtual 。 


事实 上 ，BO 只 是 DRM 抽 象 的 在 内 核 空 间 代 表 一 块 显存 有 的 一 个 数据 
结构 。 那 么 GPU 是 怎么 找到 BO 的 呢 ? 如 同 CPU 使 用 地 址 寻 址 一 个 内 存 
单元 一 样 ，GPU 也 使 用 地 址 寻 址 。GPU 根 本 不 关心 什么 BO， 它 只 认 显 
存 的 地 址 。 因 此 ， 每 一 个 BO 在 显存 的 地 址 空间 中 ， 都 有 一 个 唯一 的 地 
址 ，GPU 通 过 这 个 地 址 寻 址 ， 这 束 是 offset 的 意义 。offset 是 BO 在 显存 地 
址 至 间 中 的 虚拟 地 址 ， 显 存 使 用 线性 地 址 寻 址 ， 任 何 一 个 显存 地 址 都 是 
从 起 始 地 址 的 俩 移 ， 这 就 是 offset 命 名 的 由 来 。offset 通 过 GTT 即 可 映射 
到 实际 的 物理 地 址 。 当 我 们 网 GPU 有 友 出 命令 访问 茶 个 BO 时 ， 束 使 用 BO 
的 成 员 offset。 


有 时 需要 将 BO 映射 到 用 户 空间 ， 其 中 数据 项 virtual 葡 是 记录 映射 的 
基 址 。 


前 面 ， 我 们 讨论 了 BO 的 本 质 。 下 面 我 们 从 使 用 的 角度 看 一 看 CPU 


与 GPU 又 是 如 何 使 用 BO 的 。BO 是 显存 的 基本 单元 ， 所 以 从 保存 像素 阵 
列 的 帧 绥 冲 ， 到 CPU 下 达 给 GPU 的 指令 和 数据 ， 全 部 使 用 BO 承载 。 下 
面 ， 我 们 分 别 从 软件 演 染 和 便 件 痊 染 两 个 角 撒 看 看 BO 的 使 用 。 


(1) 软件 泻 染 


当 GPU 个 文 持 条 些 绘制 操作 时 ， 代 表 由 缓冲 的 BO 将 被 映 冉 到 用 刻 
空间 ， 用 户 程 序 直 接 在 BO 上 使 用 CPU 进 行 软 件 绘制 。 从 这 里 我 们 也 可 
以 看 出 ，DRM 巧 妙 的 设计 使 得 BO 非 第 方便 地 在 显存 和 系统 内 存 之 间 进 
行 角色 切换 。 


(2) 人 硬件 泻 桨 


当 GPU 文 持 绘制 操作 时 ， 用 户 程 序 则 将 命令 和 数据 等 复制 到 保存 命 
令 和 数据 的 BO， 然 后 GPU 从 这 些 BO 读 取 命 令 和 数据 ， 按 照 BO 中 的 指 念 
和 数据 进行 泻 染 。 


库 libdrm 中 提供 了 了 冰 数 drm intel bo subdata 和 和 
drm_intel bo_get_subdata， 在 程序 中 一 般 使 用 这 两 个 函数 将 用 户 空 间 的 
命令 和 数据 复制 到 内 核 空 间 的 BO 读者 也 会 见 到 dri bo_subdata 和 
dri_bo_get_subdata。 对 于 Intel 的 驱动 来 说 ， 后 面 两 个 水 数 分 别 是 前 面 两 
个 冰 数 的 别名 而 已 。 后 面 讨论 其 体 洽 染 过 程 时 ， 我 们 会 经 党 看 到 这 几 个 
图 数 。 


这 一 下， 我 们 结合 X 窗 口 系统 ， 讨 论 2D 程 序 的 泻 染 过 程 。 我 们 可 以 
形象 地 将 2D 泻 染 过 程 比 喻 为 绘 男 ， 其 中 有 两 个 天 键 的 地 方 : 一 个 古国 


布 ， Sh 


XX 服务 器 启动 后 ， 将 加 载 GPU 的 2D 驱 动 ，2D 了 驱动 将 请 求 内 核 中 的 
DRM 模 块 创 建 帧 缓冲 ， 这 个 帧 缓冲 束 相 当 于 画布 。 然 后 X 服 务 器 按照 绘 


团 需 要 ， 从 国 笔 盒子 中 挑选 合适 的 画笔 进行 绘画 。 


XX 的 画笔 你 存在 结构 体 GCOps 中 ， 其 中 包含 了 基本 的 绘制 操作 ， 如 
绘制 窍 形 的 PolyRectangle， 绘 制 贺 弧 的 PolyArc， 绘 制 实 心 多 边 形 的 
FillPolygon， 等 等 。 代 但 如 下 : 


XOrg-server-1.12.2/include/gcstruct.h: 
typedef struct GCOps { 


wd (*PolyRectangle) (DrawablePtr /*pDrawable */ ，...):; 
void (*PolyArc) (DrawablePtr /*pDrawable */ ,， ...); 

void (*FillPolygon) (DrawablepPtr /*pDrawable */ ，...):; 
void (*PolyFillRect) (DrawablePtr /*pDrawable */ , ...); 


} ccops， 
最 初 ， 这 些 绘制 操作 均 由 CPU 负责 完成 ， 也 束 是 我 们 通 背 所 说 的 软 
件 演 染 。X 中 的 凶 层 驶 是 软件 演 染 的 实现 ， 代 码 如 下 : 


XOIrg-Server-1.12.2/fb/fbgc.c: 


const GCOps fbGCOps = 1 
fhbFillSpans, 


fbhbpolySegment, 
fbhbprolyRectangle, 
fhbpolyArc, 
mliF1il]lPolygon, 


二 


但 是 随 看 GPU 的 个 断 肥 展 ， 其 计算 能 力 越 来 越 唱 。 于 是 X 的 开发 者 
们 不 断 改进 X 的 温 染 部 分 ， 和 希望 能 区 分 利用 GPU 擅长 的 图 形 操作 以 大 幅 
提高 计算 机 的 图 形 能 力 ， 而 又 可 以 解放 CPU， 便 其 专心 于 控制 馆 辑 。 也 
吕 是 说 ，X 的 开发 者 们 布 误 团 笔 例子 中 的 画笔 更 多 地 来 目 GPU。 


当然 ， 任 何事 物 都 不 是 一 路 而 承 的 ，GPU 的 演 染 能 力也 是 螺旋 演 进 
的 ， 对 于 GPU 尚未 实现 的 或 者 相 比 来 说 CPU 更 适合 的 演 染 操作 还 是 需要 
CPU 来 完成 ， 因 此 ，X 的 泻 染 架构 也 随 着 GPU 的 演进 不 断 地 改进 。 在 
XFree86 3.3 的 时 候 ，X 的 开发 者 设计 了 XAA (XFree86 Acceleration 
Architecture ) 架构 ;在 X.Org Server 6.9 版 本 ， 开 发 者 用 改进 的 EXA 取 代 
了 XAA; 当 DRM 中 使 用 了 GEM 后 ，Intel 的 GPU 驱动 开发 者 们 重新 实现 
了 EXA， 并 命名 为 UXA (Unified Acceleration Architecture ) ; 随 着 Intel 
推出 Sandy Bridge 及 ivy Birdge 芯 片 组 ，Intel 又 开发 了 

SNA (SandyBridge's New Acceleration ) 。 


后 续 ， 我 们 以 成 熟 且 稳定 的 UXA 为 例 进 行 讨 论 。 在 UXA 架 构 下 ，X 
的 画笔 盒子 如 下 : 


xf86-video-ijntel-2.19.0/uxa/uxa-accel.c: 


const GCOps uxa ops = 1 
uxa fll spans, 


uxa poly lines, 
uxa poly segment, 
miPolyRectangle, 


uxa check poly arc, 
miFil1l1PoOlygon, 


I 


我 们 看 到 uxa_ops 包 含 在 Intel 的 GPU 驱动 中 ， 当 然 ， 这 是 非常 合理 
的 ， 因 为 只 有 GPU 自己 最 清楚 哪些 泻 染 自己 可 以 胜任 ， 哪 些 还 需要 CPU 
来 负责 。 在 uxa_ops 中 ， 有 一 部 分 男 笔 来 自 GPU， 另 外 一 部 分 来 自 
CPU。 


对 于 每 一 个 绘制 操作 ，UXA 首 先 检 查 GPU 是 否 文 持 这 个 绘制 操作 ， 
或 者 说 在 茶 些 条 件 下 ， 对 于 这 个 绘制 操作 ，GPU 演 染 的 比 CPU 更 快 。 如 
条 GPU 文 持 这 个 绘制 操作 ，UXA 首 先 将 绘制 的 命令 翻译 为 GPU 可 以 识别 
的 指令 ， 并 将 这 个 指令 、 绘 制 所 震 的 相关 数据 ， 以 及 保存 像 系 阵列 的 
BO 在 显存 地 址 空间 中 的 地 址 ， 一 同 集 存在 用 户 空 间 的 批量 缓冲 (Batch 
Buffer) ， 然 后 通过 DRM 将 用 户 空 间 的 批量 缓冲 复制 到 内 核 为 批量 绥 冲 


创建 的 BO， 之 后 通知 GPU 从 BO 中 读 取 指令 和 数据 进行 绘制 。 实 际 上 ， 

DRM 投 照 Intel GPU 的 要 求 在 批量 缓冲 和 GPU 之 间 还 组 织 了 一 个 环形 组 
7 中 区 (Ring buffer) ， 但 是 我 们 暂时 忽略 它 ， 这 对 于 理解 2D 痊 染 过 程 没 
有 任何 影响 ， 后 面 在 讨论 3D 泻 染 过 程 时 ， 我 们 会 简单 的 讨论 这 个 环形 

绥 冲 区 。 


如 果 GPU 不 文 持 这 个 绘制 操作 ， 那 么 UXA 将 代表 帧 缓冲 的 BO 映射 
到 X 服 务 喜 的 用 户 空 间 ，X 服 务 需 借 助 弛 层 中 的 实现 ， 使 用 CPU 进行 绘 
制 | 。 


也 就是 说 ，UXA 在 他 和 GPU 加 速 的 上 和 面 封装 了 一 层 ， 其 根据 具体 绘 
制 动 作 选择 使 用 来 自 GPU 的 画笔 或 来 自 CPU 的 画笔 。 


综 上 ，X 的 2D 往 染 过 程 如 网 8-5 所 示 。 
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图 8-5 XX 的 2D 演 染 过 程 


不 知 读者 是 否 注 意 到 ， 无 论 是 tbGCOps， 还 是 uxa_ops， 其 中 均 有 个 
别 的 绘制 函数 以 "mi" 开 头 。 这 些 以 "mi" 开 头 的 函数 包含 在 X 的 mi 层 中 。 
mi 是 Machine Independent 的 缩写 ， 顾 名 思 义 ， 是 与 机 器 无 天 的 实现 。 笔 
者 没有 找到 X 中 关于 这 个 层 的 非常 明确 的 解释 ， 但 是 根据 mi 中 的 代码 来 
看 ， 其 中 的 绘 致 函数 根据 不 同 的 绘制 条 件 ， 被 拆 分 为 调用 其 他 GCOps 中 
的 绘制 函数 。 


基本 上 ， 拆 分 的 原因 无 外 乎 GPU 文 持 的 绘制 原 语 有 限 ， 所 以 有 些 绘 
制 操 作 需 要 分 解 为 GPU 可 以 文 持 的 动作 。 或 者 出 于 绘制 效率 的 考 碟 ， 将 
东 些 绘制 操作 拆 分 为 效率 更 好 的 绘制 原 语 。 因 此 ，X 将 这 些 与 具体 绘制 


实现 无 天 的 代码 刊 离 到 一 个 单独 的 模块 mi 中 。 从 这 个 角度 或 许 能 解释 又 
为 什么 将 这 个 层 命 名 为 Machine Independent。 


8.3.1 创建 前 绥 冲 


在 X 环 境 下 ， 在 不 开局 复合 〈Composite) 扩展 的 情况 下 ， 所 有 程序 
共 盏 一 个 前 缓冲 。 对 于 2D 程 序 ， 所 有 的 绘制 动作 生成 的 图 像 的 像 际 阵 
列 最 终 部 输出 到 这 个 前 缓冲 上 ， 窗 口 只 不 过 是 前 绥 冲 中 的 一 块 区域 而 
EE 


但 是 一 旦 开启 了 复合 扩展 ， 那 么 每 个 窗口 都 将 被 分 配 一 个 离 屏 
Coffscreen) 的 缓冲 ， 类 似 于 OpenGL 环 境 中 的 后 缓冲 。 应 用 将 生成 的 
像 系 阵列 输出 到 这 个 离 屏 的 缓冲 中 ， 在 绘制 完成 后 ，X 服 务 套 将 癌 复 合 
管理 器 (Composite Manager) 发 送 Damage 事 件 ， 复 合 管理 器 收 到 这 个 
事件 后 ， 将 离 屏 缓冲 区 的 内 容 合成 到 前 缓冲 。 为 了 避免 复合 扩展 干扰 我 
们 探讨 图 形 演 染 的 本 质 ， 在 讨论 2D、 包 括 后 面 的 3D 演 染 时 ， 我 们 都 不 
考虑 复合 扩展 开局 的 情况 。 


在 X 中 ，Window 和 Pixmap 是 两 个 绘制 发 生 的 地 方 ，Window 代 表 屏 
舌 上 的 窗口 ，Pixmap 则 代表 离 屏 的 一 个 存储 区 域 。 所 以 自然而然 的 ，X 
使 用 数据 结构 Pixmap 来 表示 前 缓冲 。 因 为 这 个 前 缓冲 对 应 整个 屏幕 ， 而 
昌 不 属于 汞 一 个 应 用 ， 因 此 开 友 者 也 将 代表 前 缓冲 的 这 个 Pixmap 称 为 


Screen Pixmap。 后 续 为 了 行文 方便 ， 我们 有 了 时 也 使 用 Screen Pixmap 这 
词 来 代表 前 绥 冲 的 这 个 Pixmap 对 象 。 显 然 ， 这 个 Screen Pixmap 也 是 显示 

全 《Screen) 的 和 资源， 所 以 X 将 其 体 存 到 了 代表 显示 器 的 结构 体 _Screen 
中 : 


XOrg-Server-1].12.2/include/scrnintstr.h: 
typedef struct Screen { 
polilnter devPrivate, 


} ScreenRec ; 


其 中 指针 devPrivate 指 问 这 个 前 绥 冲 ， 后 面 看 到 如 GetScreenPixmap 
的 溺 数 ， 束 古 从 _Screen 中 获取 十 绥 冲 。 


Pixmap 并 不 只 是 简单 地 抽象 为 像 系 阵 列 ， 还 要 包含 一 些 解 释 像 系数 
组 所 裔 要 的 信息 ， 比 如 疼 形 的 高 度 、 视 度 、 格 却 等 ， 其 定义 如 下 : 


XOrg-Server-1.12.2/include/pixmapstr.h: 
typedef struct Pixmap { 
DrawableRec drawable; 


PrljvateRec *devPrlvates;: 


| PixmapRec; 


结构 体 _Pixzmap 中 的 指针 devPrivates 指 向 保存 前 缓冲 的 像素 阵列 的 


BO。 但 是 Intel GPU 的 2D 驱 动 为 了 记录 更 多 信息 ， 在 BO 基础 上 封装 了 一 


层 ， 封 装 后 的 数据 结构 为 intel_pixmap。 所 以 ， 最 终 Pixmap 中 的 


devPrivate 指 同 的 并 不 是 一 个 案 BO， 而 是 在 BO 上 包围 了 一 层 的 一 个 


intel_pixmap 对 象 。 结 构 体 intel_pixmap 的 定义 如 下 : 


xXf86-video-ijntel]-2.19.0/src/intel.h: 


struct intel pixmap 1 
dri De *boy 


hs 
其 中 指针 bo 指 同 的 融 是 你 存 前 缓冲 的 像素 阵列 的 BO。 


1. 创 建 前 缓冲 的 BO 


有 前 绥 冲 的 BO 是 在 XX 服 务 絮 局 动 过 程 中 ，2D 驰 动 和 初始化 输出 设备 


时 ， 调 用 函数 intel allocate framebuffer 创 建 的 ， 具 体 代 码 如 下 : 


xf86-video-intel-2.19.0/src/intel memory.c: 


| 


drm Intel Lo Intel alliocate: ramebuftfer (ss 


| 
Fronkt: butfter ss drm 1ntel bo alloc tiledllintel=s butmgr 
front buffer", width, height, intel->cpp, 


&tiling mode, gpitch, 0); 


纯 数 drm intel bo alloc tiled 是 库 libdrm 提 供 的 API， 在 库 libdrm 中 对 
应 的 函数 是 drm_intel_gem_bo_alloc_internal: 


libdrm-2.4.35/intel/intel bufmgr gem.c: 


static drm intel bo *drm intel. gem bo alloc lnternalt.,..) 


人 


ret = QrmIOct1L (bufmgr gem->fd, 
DRM IOCTL I915 GEM CREATE, &create); 


由 代码 可 知 ， 函 数 drm_intel _gem_bo_alloc_internal 就 是 加 内 核 中 的 
DRM 模 块 申请 创建 前 绥 冲 的 BO。 


2. 将 前 缓冲 你 存 到 屏 基 对象 


在 创建 了 前 缓冲 的 BO 后 ，X 服 务 右 为 前 绥 冲 创建 了 Pixmap 对 象 ， 即 
Screen Pixmap。2D 驱 动 则 创建 了 封装 击 绥 冲 的 BO 的 intel_pixmap 对 象 。 
并 且 ，X 也 将 各 个 对 象 关联 了 起 来 。 


X 服 务 需 创建 Pixzmap 对 象 的 代码 如 下 : 


Xorg-server-1.12.2/mi/miscrinit.c: 


Bool miCreateScreenResources (ScreenpPtr pScreen,) 


人 


pPixmap = (*pScreen->CreatePixmap) (pScreen, ...); 
value = (pointer) pPixmap; 
pScreen->devPrivate = Value:; /* pPixmap or pbits */ 


return TRUE' 


疯 数 miCreateScreenResources 首 先 创建 了 一 个 Pixmap 对 象 ， 这 个 对 
象 束 是 Screen Pixmap。 然 后 将 屏 禹 对 象 中 的 指针 devPrivate 指 同 Screen 


Pixmap。 
2D 了 驱动 中 创建 intel_pixmap 对 象 的 代码 如 下 : 


xf86-video-intel-2.19.0/src/intel uxa.c: 


Bool intel uxa create screen resources (ScreenPtr screen,) 


人 
dr1i bo *bo = intel->front buffer; 


PixmapPtr pixmap = screen->GetScreenPixmap (screen); 
intel set pixmap bol(pixmap, bo),; 


在 上 面 的 代码 中 ， 函 数 GetScreenPixmap 的 目的 就 是 获取 Screen 
Pixmap。 其 中 国 数 intel _set_pixmap_bo 的 代码 如 下 : 


xf86-video-intel-2.19.0/src/intel uxa.c: 


Vold intel set pixmap bo(PixmapPtr pixmap, dri bo * bo) 
{ 


struct intel pixmap *priv; 
DElY & Calioot(tl: SIZe0f (truct. 20tel. piXMmapyl}:; 
DrivY=SbDo =: Do 


intel set pixmap private (pixmap, privV); 


疯 数 intel_set_pixmap_bo 站 先 创 建 了 一 个 intel_pixmap 对 象 ， 这 个 
intel _pixzmap 对 象 中 的 指针 bo 指 同 的 函数 的 第 2 个 实 参 bo 正 是 保存 前 绥 冲 
像 际 阵列 的 BO。 然 后 调用 轴 数 intel _set _pixzmap_private 将 intel_pixmap 与 
该 函数 的 第 1 个 实 参 ， 即 Screen Pixmap 关 联 起 来 。 


3. 窗 口 与 前 缓冲 的 绑 定 


前 绥 冲 已 经 建立 起 来 了 ， 但 是 ， 显 然 震 要 将 窗口 与 前 组 冲天 联 起 
有 来， 个 则 在 窗口 上 的 绘制 并 不 能 体现 到 屏 莽 上。 我们 在 编号 具有 图 形 界 
面 的 程序 时 ， 在 绘制 之 前 自 先 需要 创建 绘制 所 在 的 窗口 。 恰 恰 束 是 在 创 
建 窗 口 时 ， 窗 口 与 前 缓冲 绑 定 了。 我 们 来 看 一 下 XX 中 创建 窗口 的 函数 
fbCreateWindow: 


Xorg-server-1.12.2/fb/fbwindow.c: 


Bool fbCreateWindow (WindowPtr pWin) 
dixSetPrivate(&pWin->devPrivates, fbGetWinprivateKey () ， 
fbGetScreenpPixmap (pWin->drawable .pScreen)),， 


fbCreateWindow 调 用 函数 fbGetScreenPixmap 获 取 Screen Pixmap， 并 


将 窗口 对 象 与 Screen Pixmap 绑 定 。 


显然 ， 所 谓 的 创建 窗口 事实 上 就 是 将 窗口 与 前 缓冲 关联 起 来 ， 以 后 
凡是 发 生 在 窗口 上 的 绘制 ， 都 将 直接 绘制 到 前 缓冲 中 。 


8.3.2 ”GPU 演 染 


GPU 泻 染 ， 也 就 是 我 们 通常 所 说 的 硬件 加 速 ， 从 软件 的 层面 所 做 的 
工作 束 是 将 数学 模型 按照 GPU 的 规定 ， 翻 译 为 GPU 可 以 识别 的 指令 和 数 
据 ， 传 如 给 GPU， 生 成 像 系 阵列 等 图 像 密 集 型 计算 则 由 GPU 人 负责 完成 。 
可 见 ， 当 使 用 GPU 进 行 泻 染 时 ， 在 软件 屋面， 实质 上 束 古 组 织 命令 和 数 
据 而 已 。 


Intel GPU 的 2D 张 动 是 如 何 将 这 些 命令 和 数据 传递 给 GPU 的 呢 ? 读 
者 一 定 想到 了 BO。 在 Intel GPU 的 2D 驱 动 中 ， 定 义 了 使 用 了 一 种 所 谓 的 
批量 缓冲 来 保存 这 些 命令 和 数据 ， 这 里 所 谓 的 批量 就 是 将 驱动 准备 命令 
和 数据 放 到 这 个 缓冲 ， 然 后 批量 地 让 GPU 来 读 取 ， 这 就 是 批量 缓冲 的 由 
来 。 批 量 绥 冲 的 相关 定义 在 结构 体 intel_screen_private 中 : 


xf86-video-intel-2.19.0/src/intel.h: 
typedef struct intel streen private { 


Hnt32 t Patch ptrl4096]; 
unsigned int batch used; 


dr1i. bo *pateh bo 


} intel screen private; 


在 结构 体 intel_screen_private 中 ， 数 组 batch_ptr 是 X〈 谁 确 地 说 是 2D 


驱动 ) 在 用 户 空间 使 用 的 组 织 命令 和 数据 的 地 方 ， 指 针 batch_bo 则 指向 
内 核 空间 保存 批量 缓冲 数据 的 BO。2D 了 驱动 将 相关 的 命令 和 数据 组 织 在 
数组 batch_ptr 中 ， 然 后 将 数组 batch_ptr 中 的 数据 复制 到 batch_bo 指 向 的 
内 核 空间 中 的 BO 中 ， 供 GPU 来 读 取 。 


2D 豫 动 的 代码 中 为 了 方便 ， 也 定义 了 几 个 操作 批量 绥 冲 的 宏 ， 典 
型 的 有 如 下 的 OUT_BATCH 和 OUT RELOC PIXMAP FENCED: 


xf86-video-intel-2.19.0/src/intel batchbuffer.h: 


#define OUT BATCH (dword) intel batch emit dwordl(intel, dwordqd) 
#define OUT RELOC PIXMAP FENCED (pixmap, reads, write, delta) \ 
intel batch emit reloc pixmap (intel, pixmap, reads, \ 
write, delta, 1) 


static inline void intel batch emit dworad( 
intel Screen private *intel, uint32 t dword) 


| 


intel->batch ptrlintel->batch used++] = dword; 


static inline void intel batch emit reloc 人 
intel screen private *intel; dri bo * boss6') 


intel batch emit dword{(intel, bo->offset + delta); 


} 


宏 OUT_BATCH 将 命令 或 者 数据 写 入 数组 batch_ptr， 宏 
OUT_RELOC_PIXMAP_FENCED 将 BO 的 在 GPU 地 址 空间 中 的 虚拟 地 址 
写 入 数组 batch_ptr。 


接 下 来 ， 我 们 以 具体 的 绘制 方法 miPolyRectangle 为 例 ， 讨 论 2D 驱 动 
如 何 使 用 GPU 进 行 绘 制 ， 也 就 是 我 们 通常 所 说 的 硬件 加 速 ， 具 体 代 码 如 


Xorg-server-1.12.2/mi/mipolyrect.c: 

Ql1 vord mlPolvhRectansglels as) 

OF 3 

03 和 

04 if (PpGC->lineStyle == LineSolid && PGC->]jolnStyle == 

05 JoinMiter && pGC->lineWidth != 0) { 

07 (*pPGC->ops->PolyFillRect) (pDraw, pGC, t - tmp, tmp); 
08 free( (pointer) tmp).; 

09 } 

10 else |{ 


过 (*pGC->ops8->Polylines) (...); 


根据 不 同 的 绘制 条 件 ， 函 数 miPolyRectangle 将 绘制 矩形 的 动作 进行 
了 拆 分 ， 拆 分 的 目的 是 选择 最 合适 的 绘制 方式 进行 绘制 。 这 个 拆 分 方法 
不 依赖 于 任何 有 具体 硬件 ， 因 此 ，X 将 这 个 拆 分 过 程 放 到 mi 层 中 。 


如 果 和 矩形 的 线性 是 实心 填充 的 ， 且 线段 交汇 处 是 尖 角 (JoinMiter) 
风格 的 ， 并 且 宽 度 不 为 0， 那 么 使 用 方法 PolyFillRect 绘 制 ， 见 代码 第 4~9 
行 。 和 否则 ， 使 用 方法 Polylines 绘 制 ， 如 代码 第 10~14 行 所 示 。 


以 PolyFillRect 为 例 ， 其 在 UXA 〈 即 uxa_ops) 中 对 应 的 具体 国 数 是 


uxa_poly_fil]l_rect: 


xf86-video-intel-2.19.0/uxa/uxa-accel .cs: 


OF 家 Tora. Te Doly ml Zetex 
02 { 


04 if (pGC->fillStyle != FillSolid && ...) f 

05 goto fallback.,; 

06 } 

08 if (!(*uxa screen->info->prepare solid) (pPixmap, ...)) { 
09 fallback: 

二 站 uxa check poly fill rect(pDrawable, pGC, nrect, prect); 
lL QE OC 

12 } 


14 (*uxa screen->info->solid) (PPIxmap， 
15 EL TT 到 可 下 下 WY 4 vorfE:, Ye F HOP we MoOEPEYR 


疯 数 uxa_poly_fill_rect 站 先 检 查 各 种 绘制 条 件 以 确认 是 否 适 合 使 用 
GPU 进行 绘制 ， 如 代码 第 4~7 行 所 示 。 如 末 适 合 使 用 GPU 进行 绘制 ， 则 
陆续 调用 函数 prepare_solid 和 solid 为 GPU 准备 指令 和 数据 ， 下 面 我 们 会 
重点 讨论 这 两 个 图 数 。 


侍 则 ， 正 如 第 5 行 代码 所 示 ， 跳 转 到 标签 fallback 处 ， 即 代码 第 9 
行 ， 使 用 函数 uxa_check_poly_fill_rect 进 行 绘制 ， 这 个 函数 实际 是 使 用 
CPU 进行 绘制 的 ， 我 们 将 在 8.3.3 节 进行 讨论 。 


UXA 中 的 函数 指针 solid 指 同 intel_uxa solid: 


xf86=video-intel=2.19.0/src/intel uxa.c:; 


01 static void intel uxa solid(PixmapPtr pixmap, int x1l, 


02 Be EI 2 LD YW 

03 { 

04 

05 { 

06 BEGIN BATCH BLT(6) ; 

07 

08 cmd = XY COLOR BLT CMD; 

09 

10 OUT BATCH (cmd); 

: 

有 OUT BATCH(intel->BR[13] | Pitch) ; 

13 OUT BATCH!( (yl << 16) | ‘(x1 & 0xffff}),; 
14 OUT BATCH((y2 << 16) | (x2 & Oxffff£)); 
15 OUT RELOC PIXMAP FENCED (pixmap, 

16 I915 GEM DOMAIN RENDER, I915 GEM DOMAIN RENDER，0) ; 
人 OUT BATCH (intel->BR[16]); 

18 ADVANCE BRATCH () ; 

19 } 

20 } 


根据 前 面 讨论 的 批量 缓冲 以 及 为 操作 批量 缓冲 封装 的 儿 个 宏 ， 读 者 
一 定 已 经 看 出 来 了 ， 上 面 的 代码 是 在 组 织 批 量 缓冲 在 用 户 空 间 的 数组 
batch_ptr。 那 么 函数 intel_uxa_solid 向 batch_ptr 中 填 入 各 项 的 意义 是 什么 
呢 ? 这 个 显然 要 参考 Intel GPU 的 指令 格式 。 根 据 第 8 行 代 人 码 可 见 ，2D 驱 
动 发 送 给 GPU 的 指令 是 XY_COLOR_BLT， 该 指令 的 功能 是 对 目标 区 域 
以 指定 颜色 填充 。Intel GPU 的 指令 XY_COLOR_BLT 的 格式 如 表 8-1 所 


人 小 。 


表 8-1 Intel GPU 指令 XY_COLOR BLT 的 格式 
双 字 ( 寄存 器 ) 描 述 
ET 
0 = BR00 § 令 操作 码 : 50h 
NE ET 
| = BR13 目标 图 像 的 跨度 
目标 区 域 顶 部 坐标 (Y1 ) 
2 = BR22 
目标 区 域 左 侧 坐 标 ( X1) 
3 = BR23 一 一 - 
目标 区 域 右 侧 坐 标 (X2 ) 
4= BR09 目标 区 域 基 址 


(来 源 于 “Intel OpenSource HD Graphics Programmer”s Reference Manual (PRM) Volume 1 Part $: Graphics Core 
— Blitter Engine (SandyBridge) May 2011 Revision 1.0”) 


下 面 我 们 结合 表 8-1 来 分 析 函 数 intel _uxa_solid 组 织 批量 缓冲 的 过 


1) 由 表 8-1 可 见 ， 指 令 XY_COLOR_BLT 包 含 6 个 双 字 (DWord) ， 
第 10 行 代 人 码 填充 的 是 第 0 个 双 字 ， 其 中 "BR00" 是 什么 意思 呢 ? 事实 上 ， 
GPU 内 部 分 为 多 个 微 核 ， 处 理 不 同 的 命令 ， 处 理 2D 指 令 的 微 核 称 为 BLT 
引擎 〈Engine) 。 对 于 每 个 2D 指 令 ， 每 个 双 字 实际 上 分 别 和 被 送 往 BLT3 引 
警 的 各 个 寄存 器 中 。 因 此 ， 这 里 的 BR 就 是 "BLT Register" 的 简写 ， 如 指 
令 XY_COLOR_BLT 中 的 第 1 个 双 字 被 大 往 BLT 引 擎 的 第 0 个 寄存 器 ， 人 第 2 


个 双 字 被 送 往 BLT 引 人 擎 的 第 13 个 寄存 器 ， 等 等 。 


因此 ， 对 于 GPU 指令 来 说 ， 需 要 指明 自己 需要 哪个 微 核 来 处 理 ， 这 
人 
Xx 


就 是 第 一 个 双 字 中 第 29~31 位 的 作用 ，0x2 表 示 2D 指 令 、0x3 表 示 3D 指 人 < 


等 。 寄 存 器 BR00 中 最 重要 的 就 是 指令 的 操作 码 ， 即 第 22~28 位 ， 对 于 指 
令 XY_ COLOR_BLT， 其 操作 码 是 0x50。 其 余 位 主要 用 于 控制 ， 如 第 11 
位 用 于 控制 是 否 打 开 Tiling， 等 等 。 因 此 ， 寄 存 器 BR00 也 被 称 为 "BLT 


Opcode & Control Register " 。 


根据 宏 XY COLOR BLT CMD 的 定义 : 


xf86-video-intel-2.19.0/src/i830 reg.h: 


#define XY COLOR BLT CMD (Taee2dl | (OxG0ee22) | COwe)) 


其 中 从 第 22 位 开始 的 0x50 正 是 指令 XY_COLOR_BLT 的 指令 操作 
人 码 。 第 29~30 位 设置 为 2， 告 诉 GPU 这 个 指令 是 一 个 2D 指 令 ， 需 要 GPU 


定向 给 BLT 引 人 擎 。 


2) 第 12 行 代码 项 充 的 是 第 1 个 双 字 ， 对 应 BLT 引 擎 的 寄存 项 
BR13。 其 中 "intel- 之 BR[13]" 是 为 了 方便 构建 指令 在 程序 中 定义 的 一 个 
变量 ， 你 存 军 存 器 BR13 的 值 。 这 束 是 函数 uxa_poly_fill_rect 在 调用 solid 
之 前 ， 调 用 国 数 prepare_solid 的 目的 。 在 UXA (uxa_ops) 中 ， 
prepare_solid 对 应 的 函数 是 intel_uxa_prepare_solid: 


xf86-video-intel-2.19.0/src/intel uxa.c: 


static Bool intel uxa prepare solid(PixmapPtr pixmap, int alu, 
Pixel planemask, Pixel fg) 


{ 


switch (pixmap->drawable.bitsPerPixel) { 


Case 8: 
break,; 
CaSe 16: 
/* RGB565 */ 
intel->BR[13] |= (1 << 24); 
break,; 
Case 32: 
/* RGB8888 */ 
intel=>SsBR[I13] | 二 ({1 < 24) | (1 << 25)); 
break,; 


intel->BR[16] = fg,; 


return TRUE: 


也 数 intel_uxa_prepare_solid 根 据 图 像 实际 使 用 的 色 深 ， 设 置 相应 的 
位 。intel_uxa_prepare_solid 除 了 计算 了 寄存 器 BR13 中 的 色 深 外 ， 也 计算 
了 寄存 器 BR16 的 值 ，BR16 中 的 值 是 GPU 进 行 填充 时 使 用 的 闫 色 。 


除了 设 曾 色 深 外 ， 第 12 行 代码 也 设 首 了 图 像 的 跨度 (pitch)， 叶 上 度 
是 以 字 节 为 单位 表示 的 图 像 的 一 行 的 长 度 。 


3) 第 13 行 代码 填充 了 第 2 个 双 字 ， 对 应 BLT 引 擎 的 寄存 器 BR22， 
这 个 寄存 器 中 保存 的 是 目标 区 域 的 左上 角 的 坐标 。 


4) 第 14 行 代码 填充 了 第 3 个 双 字 ， 对 应 BLT 引 警 的 寄存 器 BR23， 
这 个 寄存 器 中 保存 的 是 目标 区 域 的 右 下 角 的 坐标 。 


5) 第 15~16 行 代 公 填 元 的 第 4 个 双子 ， 对 应 BLT 引 获 的 寄存 此 
BR09， 这 个 寄存 右 中 保存 的 是 目标 区 域 在 GPU 的 显存 空间 中 的 地 址 。 
这 里 的 pixmap 就 是 Screen Pixzmap， 上 所 以 安 


OUT_RELOC_PIXMAP_FENCED 束 是 将 保存 前 缓冲 的 像素 阵列 的 BO 在 


显存 空间 中 的 地 址 填充 到 这 个 双 字 中 。 读 者 可 以 参见 前 面 关 于 安 
OUT RELOC PIXMAP FENCED 的 介绍 。 


6) 第 17 行 代码 填充 了 第 5 个 双 字 ， 对 应 BLT 引 擎 的 寄存 器 BR16， 
这 个 寄存 器 中 保存 的 是 填充 使 用 的 闫 色 。 


在 完成 指令 XY_COLOR_BLT 的 构建 后 ， 疯 数 intel_batch_submit 将 
用 户 空间 的 batch_ptr 中 的 数据 复制 内 核 空 间 的 ， 并 通知 GPU， 开 始 执 行 
批量 缓冲 中 的 指令 ， 代 但 如 下 : 


xf86-video-intel-2.19.0/src/intel batchbuffer.c: 


void intel batch submit (ScrnInfoPtr scrn) 


人 


ret = dri bo subdata(intel->batch bo, 0, intel->batch used*4, 
intel=>batch ptr}); 
if (ret == 0) f 
ret = drm intel bo mrb exec(lintel->batch bo, 
intel->batch Used*w4; oh) 


| 


其 中 国 数 dri bo_subdata， 我 们 已 经 在 8.2.2 节 讨论 过 ， 其 负 贡 将 数据 
从 用 尸 空间 复制 到 内 核 空 间 。 所 以 这 里 就 是 2D 驱 动 将 组 织 在 用 户 空 间 
中 的 数组 batch_ptr 中 的 数据 复制 到 批量 绥 冲 在 内 核 中 对 应 的 BO。 


湘 数 drm_intel bo _mrb _ exec 通知 GPU 开始 执行 批量 缓冲 中 的 指令 。 


方式 是 通过 写 GPU 的 一 个 寄存 句 ， 有 具体 过 程 请 参考 8.4.2 节 。 


8.3.3 ”CPU 演 染 


根据 上 节 讨 论 的 函数 uxa_poly_fill_rect， 我 们 看 到 ，GPU 并 不 是 接 
收 全 部 的 绘制 实心 矩形 的 操作 。 对 于 不 满足 GPU 条 件 的 实心 矩形 ， 则 将 
求助 于 CPU 绘 制 ， 对 应 的 冰 数 是 uxa_check_poly_fill_rect: 


xf86-video-intel-2.19.0/uxa/uxa-unaccel .c: 


volid vxa check poly 1l1 rect {5 sa 


人 
if (uxa prepare _ access (PDrawable，UXRA ACCESS RW)) { 


fbpolyFillRect (PDzawablLle，PGC，nrect ，PIrect) ; 


BO 是 由 DRM 模 块 在 内 核 空间 分 配 的 ， 因 此 运行 在 用 户 空 间 的 
X (2D 驱动) 要 想 访 问 这 个 内 存 ， 必 须 首 先 要 将 其 映射 到 用 户 空间 ， 这 
是 由 函数 uxa_prepare_access 来 完成 的 。 然 后 ，X 使 用 CPU 在 映射 到 用 户 
空间 的 BO 上 进行 绘制 。 看 到 以 外 开头 的 函数 凶 PolyFillRect， 读 者 一 定 狂 
到 了 ， 这 就 是 X 的 也 层 的 函数 ， 而 弛 层 正 是 软件 演 染 的 实现 。 


(1) 映 册 BO 到 用 户 空 间 


国 数 uxa_check_poly_fill_rect 调 用 uxa_prepare_access 将 BO 映射 到 用 
尸 空 间 : 


xf86-video-intel-2.19.0/uxa/uxa.c: 


5 


Bool uxa prepare _ access (DrawablePtr pDrawable., 


if (uxa screen->info->prepare access) 


return (*uxa screen->info->prepare access) (pPixmap, ...); 


return TRUE: 


企 UXA (uxa_ops) 中 ， 指 针 prepare_access 指 回 的 图 数 是 
intel Uxa_prepare_acCcess: 


xf86-video-intel-2.19.0/src/intel uxa.c: 


static Bool intel uxa prepare access (PixmapPtr pixmap, 


人 


struct intel pixmap *priv = intel get pixmap PrlLVate(tPp1ILIxmapl) ; 


dri bo *bo = priv-Sbo; 


ret = drm intel gem bo map gtt (bo) ; 


疯 数 intel_uxa_prepare_access 退 过 libdrm 库 中 的 函数 
drm_intel _gem_bo_map_gtt 申 请 内 核 中 的 DRM 模 块 将 保存 前 缓冲 的 像素 


阵列 的 BO 映射 到 用 户 空 间 : 


libdrm-2.4.35/intel/intel bufmgr gem.c: 


int drm intel gem bo map gtt (drm intel bo *bo) 


人 
ret = map gtt (bo); 
} 


static int map gtt(drm intel bo *bo) 


{ 


bo gem->gtt virtual = mmap(0, bo->size, PROT READ | 
PROT WRITE, MAP SHARED, bufmgr gem->fd, ...); 


看 到 熟悉 的 函数 mmap， 旋 者 应 该 一 切 都 明白 了 了。 从 CPU 的 角度 
看 ，BO 与 普通 内 存 并 无 区 别 ， 所 以 ， 映 里 BO 与 映 映 普通 内 存 完 全 相 
后。 其 中 bufmgr_gem-fd 指 同 的 束 古 代表 BO 的 共 圣 内 存 。 


(2) 使 用 CPU 在 映射 到 用 户 空 间 的 BO 上 进行 绘制 


我 们 再 来 简单 看 看 软件 演 染 函数 fbPolyFillRect 的 实现 : 


XOrg-Server-1.12.2/fb/fbfil lrect.c: 


vOold fbPolyFillRect(..,.) 


| 


Pel ls Sb 
| 
XOrg-Server-1.12.2/fb/fbfill.c: 


old ThELLLI(; ,|) 


| 


switch (pGC->fil lstyle) 1{ 
case Fl1llSol1d: 


#ifndef FB ACCESS WRAPPER 


i land [| la ITIint32 Tt 2 dots datstride, dotBpp: 
DartX1 + datXoff,e Dartyl + dety¥off. 
CDArtA2 = DArTEXZL): Darty2 = Dartyll sy Sor)) 
#endif 
FDGlLida ae) } 
break.,; 


} 


xorg-server-1.12.2/fb/fbsolid.c: 


es eh 寺 


人 


WRITE (dst++, XOoOr); 


} 


Xorg-server-1.12.2/fb/fb.h: 


#define WRITE(ptr, val) (*(ptr) = (val)) 


根据 上 和 面 的 代码 可 见 ，X 的 软件 痊 染 层 〈 即 他 这 一 层 ) ， 或 者 信 助 
亩 pixman 中 的 API， 或 者 目 己 卫 接 操作 像 系 数组 ， 完 成 图 形 的 绘制 。 其 


原理 非常 简单 ， 束 是 卫 接 设置 像 系 数组 中 的 闫 色 值 或 系 引 。 


经 过 对 2D 洽 染 的 探讨 ， 我 们 看 到 ， 所 谓 的 软件 渔 染 和 便 件 加 速 ， 
本 质 上 都 是 生成 图 像 的 像 系 阵 列 ， 只 不 过 一 个 是 由 CPU 来 计算 的 ， 万 外 
一 个 是 由 GPU 来 计算 的 。 当 然 ， 对 于 使 件 加 速 ，CPU 要 充当 一 个 翻译 ， 
将 数学 模型 按照 GPU 的 要 求 翻 译 为 其 可 以 识别 的 指令 和 数据 。 


8.4 3D 演 染 


运行 在 X 上 的 2D 程 序 ， 者 将 绘制 请 求 肥 给 X 服 务 郁 ， 由 又 服务 左 来 
完成 绘制 。 但 是 对 于 3D 图 形 的 绘制 ，X 应 用 需要 通过 套 接 字 回 X 服 务 硕 
传递 大 量 的 数据 ， 这 种 机 制 产 重 影响 了 图 形 的 泻 染 效率 。 为 了 解 块 效率 
问题 ，X 的 开 及 者 们 设计 了 DRI 机 制 ， 即 X 应 用 不 再 将 绘制 图 形 的 请 求 肥 
送 给 X 服 务 厅 了 ， 而 是 由 应 用 目 行 绘制 。 


在 Linux 平 台 上 ，OpenGL 的 实现 是 Mesa， 所 以 在 本 节 中 ， 我 们 结合 
Mesa， 探 讨 3D 的 痊 染 过 程 。 我 们 可 以 认为 Mesa 分 为 两 个 天 键 部 分 : 


争 一 部 分 尽 一 侠 阅 窑 OpenGL 标 准 的 实现 ， 为 应 用 程序 提供 标准 的 
OpenGL API。 


仿 态 外 一 部 分 是 DRI 驱 动 ， 通 常 也 被 称 为 3D 驱 动 ， 其 中 包括 
Pipleline 的 软件 实现 ， 也 束 是 说 ， 即 使 GPU 没 有 任何 3D 计 算 能 力 ， 那 么 
Mesa 也 完全 可 以 使 用 CPU 完成 3D 演 染 功 能 。3D 豫 动 还 负 贡 将 3D 泻 染 命 
令 翻 译 为 GPU 可 以 理解 并 能 执行 的 指令 。 不 同 的 GPU 有 各 目的 “指令 
集 ”， 因 此 ， 在 Mesa 中 不 同 的 GPU 都 有 各 上 自 的 3D 了 驱动。 

Pipeline 最 后 将 生成 好 的 像素 阵列 输出 到 怖 缓 种， 但 是 这 还 不 够 ， 


因为 最 后 的 输出 需要 显示 到 屏幕 上 。 而 屏幕 的 显示 是 由 具体 的 窗口 系统 
控制 的 ， 因 此 ， 帧 缓冲 还 需要 与 具体 的 禄 口 系 统 相 结合 。 但 是 X 的 核心 


协议 并 不 包含 OpenGL 相 关 的 协议 ， 因 些 ， 开 友 者 们 开发 了 GL 的 扩展 
GLX (GL Extension ) 。 为 了 文 持 DRI， 开 发 者 们 又 开发 了 DRI 扩 展 。 显 
然 ，GLX 以 及 DRI 扩 展 在 X 和 Mesa 中 均 需 要 实现 。 


基本 上 ， 运 行 在 XX 窗口 系统 上 的 OpenGL 程 序 的 泻 染 过 程 ， 可 以 划 
分 为 三 个 阶段 ， 如 图 8-6 所 示 。 
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图 8-6 3D 泻 染 架 构图 


1) 应 用 创建 OpenGL 的 上 下 文 ， 包括 问 X 服 务 右 申请 创建 巾 绥 冲 。 
应 用 为 什么 不 自己 直接 向 内 核 的 DRM 模 块 请 求 创建 帧 缓冲 昵 ? 从 技术 
上 讲 ， 应 用 目 己 请 求 DRM 创 建 请 求 创建 帧 缓 神 没有 任何 问题 ， 但 是 为 
了 将 帧 缓冲 与 具体 的 窗口 系统 绑 定 ， 应 用 只 能 委屈 一 下 ， 放 低 姿 态 请 求 
X 服 务 左 为 其 创建 帧 缓冲 。 这 样 ，X 服 务 耸 融 擎 握 了 应 用 的 帧 缓冲 的 一 
手 材料 ， 在 需要 时 ， 将 帧 绥 冲 显示 a 到 屏 硕 。 帧 绥 冲 是 应 用 程序 的 “加 
板 ”?”， 因 此 创建 完成 后 ，X 服 务 右 十 要 将 帧 缓冲 的 BO 的 信息 返回 给 应 
用 。 


2) 应 用 程序 建立 数学 模型 ， 并 通过 OpenGL 的 API 将 数学 模型 的 数 
据 写 入 顶点 缓冲 (vertex buffer) ; 更 新 GPU 的 状态 ， 如 指定 后 缓冲 ， 用 
来 存储 Pipeline 输 出 的 像 系 阵列 ， 然 后 局 动 Pipeline 进 行 演 染 。 


3) 演 染 完成 后 ， 应 用 程序 网 X 服 务 需 及 出 交换 〈swap) 请 求 。 这 
里 的 交换 有 两 种 方式 ， 一 种 是 复制 copy) ， 所 谓 复 制 耽 是 将 后 缓冲 中 
的 内 容 复制 到 前 组 种， 这 是 由 GPU 中 BELT 引擎 负责 的 。 但 是 复制 的 效率 
相对 较 低 ， 所 以 ， 开 及 者 们 又 设计 了 一 种 称 为 页 翻转 〈page flip) 的 模 
却 ， 在 这 种 模 陈 下 ， 不 需要 复制 动作 ， 而 是 通过 GPU 的 显示 引擎 控制 吕 
示 控 制 厚 扫 搞 哪个 顿 缓 剖 ， 这 个 极 扫 朱 的 缓冲 此 时 扮 泗 前 缓冲 ， 而 万 外 
一 个 不 个 扫 插 的 帧 绥 冲 则 作为 应 用 的 “画板 *?， 也 束 古 所 说 的 后 绥 冲 。 


接 下 来 我 们 惑 围 经 这 三 个 阶段 ， 讨 论 3D 程 序 的 演 染 过 程 。 


8.4.1 创建 帆 绥 冲 


在 2D 洽 染 中 ， 洽 染 过 程 部 由 X 服 务 占 完成 ， 所 以 时 无 搜 议 ， 前 绥 冲 
由 而 且 只 能 由 X 服 务 右 创建 。 但 是 对 于 DRI 程 序 来 襄 ， 其 泻 染 是 在 应 用 
中 完成 ， 应 用 当然 需要 知道 帧 缓冲 ， 但 是 X 服 务 带 控制 看 窗口 的 显示 ， 
所 以 X 服 务 右 也 项 要 知 志 帧 缓冲 。 所 以 ， 帧 绥 冲 或 者 由 X 服 务 右 创建 ， 
然后 洁 知 应 用 ; 或 者 由 应 用 创建 ， 然 后 再 守 知 X 服 务 占 。X 采 用 的 是 前 
者 。 


虽然 OpenGL 中 的 巾 缓 冲 的 概念 与 2D 相 比 有 些 不 同 ， 但 本 质 上 并 无 
甜 别 ， 帧 缓冲 中 的 每 个 组 种 都 对 应 独 一 个 BO。 为 了 管理 方便 ，Mesa 为 
机 缓冲 以 及 其 中 的 各 个 缓冲 分 别 抽 象 了 相应 的 数据 结构 ， 代 人 码 如 下 : 


Mesa-8.0.3/src/mesa/main/mtypes.h: 


struct gl framebuffer 


{ 


struct gl renderbuffer attachment Attachment [BUFFER COUNT]; 


a 


其 中 ， 结 构 体 gl_framebuffer 是 帆 缓 冲 的 抽象 。 结 构 体 
g]_renderbuffer 是 颜色 绥 冲 、 深 度 绥 冲 等 的 抽象 。gL_framebuffer 中 的 数 
组 Attachment 中 保存 的 就 是 颜色 缓冲 、 深 度 绥 冲 等 。 


在 具体 的 3D 驱 动 中 ， 通 常会 以 g]_renderbuffer 作 为 基 类 ， 泊 生出 目 
己 的 类 。 如 对 于 Intel GPU 的 3D 了 驱动， 粕 生 的 数据 结构 为 


intel renderbuffer: 


Mesa-8.0.3/src/mesa/drivers/dri/intel/intel fbo.h: 


struct intel renderbuffer 


{ 


struct swrast renderbuffer Base,; 


struct intel mipmap tree *mt; /**< The renderbuffer storage. */ 


其 中 指针 mt 间接 指 问 绥 冲 区 对 应 的 BO。 


如 同 在 Intel GPU 的 2D 驱 动 中 ， 使 用 结构 体 intel_pixmap 封 装 了 BO 一 
样 ，Intel GPU 的 3D 驱 动 也 在 BO 之 上 包装 了 一 层 intel_region。 
intel_region 中 除了 包括 BO 外 ， 还 包括 绥 冲 区 的 一 些 信 息 ， 如 绥 冲 区 的 


一 一 一 全 


宽度 、 员 度 等 : 


Mesa-8.0.3/src/mesa/drivers/dri/intel/intel regions.h: 


struct .Intel reglion 


| 


drm intel bo *bo; /**< buffer manager's buffer */ 
GLuint refcount; /**< Reference count for region */ 
GLuint cpp; /**< bytes per pixel */ 

GLuUuint width,.; /**< lin pixels */ 


本 一 


当 OpenGL 应 用 调用 gJ]jXMakeCurrent 时 ， 束 开局 了 创建 帧 缓冲 的 过 


程 ， 这 个 过 程 可 分 为 三 个 阶段 : 


1) OpenGEL 应 用 同 X 服 务 需 请求 为 指定 窗口 创建 帧 缓冲 对 应 的 BO。 
帧 绥 冲 中 包含 多 个 缓冲 ， 所 以 当然 是 创建 多 个 BOT。 


2) Xx 服务 器 收 到 应 用 的 请 求 后 ， 为 各 个 缓冲 创建 BO。 在 创建 完成 
后 ， 将 BO 的 名 字 等 相关 信息 发 送 给 应 用 。 


3) 应 用 收 到 BO 信息 后 ， 将 更 新 GPU 的 状态 。 比 如 告诉 GPU 画板 在 
哪里 。 


1. 悄 用 请 求 X 服 务 器 创建 BO 


帆 绥 剖 与 具体 的 GPU 黎 切 相关 ， 因 此 创建 凑 缓 冲 的 及 起 在 3D 张 动 
中 。 以 i915 系 列 的 3D 了 驱动 为 例 ， 友 起 创建 帧 缓冲 的 函数 为 


intelCreateButffer: 


Mesa-8.0.3/src/mesa/drivers/dri/i915/intel screen.c: 
static GLboolean intelCreateBuffer(...) 
struct intel renderbuffer *rb; 


struct gl framebuffer *fb = CALLOC STRUCT (gl framebuffer),; 


rb = intel create renderbuffer (rgbFormat).,; 
mesa add renderbuffer (fb, BUFFER FRONT LEFT; .,.}); 


疯 数 intelCreateBuffer 先 后 创建 了 由 缓冲 对 象 和 帆 缓 冲 中 包含 的 各 
个 “ 子 ” 缓 冲 对 象 ， 并 将 各 “ 子 ” 缓 冲 对 象 加 入 到 帆 缓 冲 对 象 的 数组 
Attachment 中 。 但 是 并 不 是 OpenGEL 中 规定 的 所 有 的 绥 冲 对象 都 需要 创 


建 ， 所 以 函数 jintelCreateBuffer 需 要 根据 具体 情况 创建 如 前 绥 冲 、 后 绥 
冲 、 深 上 度 绥 冲 等 对 象 。 注 意 ， 这 里 所 谓 的 创建 缓冲 对 象 ， 仅 仅 是 搭建 起 
了 一 个 空 架子 而 已 ， 帧 缓冲 尚未 与 具体 的 BO 绑 定 。 


一 且 应 用 调用 glIXMakeCurrent 切 换 目 己 为 当前 应 用 ， 
glXMakeCurrent 将 调用 3D 驱 动 中 的 了 疯 数 intel_update_renderbuffers 请 求 X 
服务 占 创 建 指定 X 窗 口 的 各 个 缓冲 区 的 BO: 


Mesa-8.0.3/src/mesa/drivers/dri/i915/intel context.c: 


void intel update renderbuffers!( DRICcontext *context, ...) 


{ 


if (try separate stencil) 1 
intel query dri2 buffers with separate stencil (intel, 
drawable, &buffers, &attachments, &count).; 
} else { 
intel query dri2 buffers no separate stencil(...); 


} 


心 m2 


其 中 ， 男 数 intel _query_dri2_buffers_withno_separate_stencil 回 X 服 务 
需 申 请 为 ID 为 drawable 的 窗口 创建 帧 缓冲。 以 


intel query_dri2_buffers_with_separate_stencil 为 例 : 


Mesa-8.0.3/src/mesa/drivers/dri/i915/intel context.c: 


static void intel query dri2 buffers with separate stencil(...) 


人 


struct gl framebuffer *tb = drawable->driverPprivate:; 


Struct intel renderbuftter *front rb; 
struct intel renderbuffer *back rb; 


back rb = intel get renderbuffer (fb, BUFFER BACK LEFT),; 


iE (Back EB 4 


(*attachments) [i++] = DRI BUFFER BACK LEFT; 
(*attachments) [i++] = intel bits Per pixel (back rb); 
*buffers = screen->dri2.l]oader->getBuffersWithFormat (drawable, 
ws tnmenta sv 


国 数 intel _ query_dri2_buffers_with_separate_stencil 将 怖 缓冲 中 的 各 个 
绥 冲 组 织 为 一 个 数组 attachments， 其 格式 是 绥 冲 的 人 D 加 上 缓冲 的 色 深 ， 
后 面 组织 X 请 求 将 使 用 这 个 数组 attachments。 然 后 调用 
getBuffersWithFormat 问 XX 服务 秦 请 求 创建 这 些 缓冲 的 BO。 在 Mesa 新 的 
DRI 扩 展 中 ，getBuffersWithFormat 最 终 调用 的 函数 是 


DRI2GetBuffersWithFormat: 


Mesa-8.0.3/src/glx/dri2.c: 


DRI2Buffer * DRI2GetBuffersWithFormat (Display * dpy, XID drawable, 
-: USIgned i100t *attachmenta, ww :3 


GetReqExtra (DRI2GetBuffers, count * (4 * 2), req),; 
req->reqType = info->codes->ma]jor opcode; 
req->dri2ReqType = X DRI2GetBuffersWithFormat,; 


req->drawable = drawable; 


req->count = count,; 
DD ms (CARD32 ww)} :TelL|3 
FOr (1 = COUT 和 i EE 村 |) 
pI1i] = attachmentsl21].; 
if (! XReply(dpy, (xReply *) & rep, 0, xFalse)) { 
for: (4 ww Qs 二 训 rencounts ya) 1 
XReadPad(dpy, (char *) &repBuffer, sizeof repBuffer); 
buffersl|li] .attachment = repBuffer.attachment., 
buffersl|li] .name = repBuffer.name,; 
buffers|i] .pitch = repBuffer.pitch; 
buffersl1i) .pp = repBuffer.cpp; 
buffersl|i|] .flags = repBuffer .flags,; 


国 数 DRI2GetBuffersWithFormat 首 先 创 建 一 个 
X_DRI2GetBuffersWithFormat 交 型 的 X 请 求 ， 根 据 表 面 组 织 的 数组 
attachments， 即 申请 创建 的 绥 神 的 信息 ， 组 织 X 请 求 的 消 妃 体 ， 消 息 体 
中 包 侣 各 缓冲 的 ID 和 色 深 。 


然后 调用 Xlib 的 接口 _XReply 将 请 求 肥 大 给 X 服 务 硕 ， 并 等 行 请 求 的 
返回 。 


在 X 服 务 器 创建 BO 后 ， 会 将 BO 信息 返回 给 应 用 ，X 服 务 器 创建 BO 
的 过 程 我 们 下 节 讨 论 。 根 据 代码 我 们 看 到 ， 在 返回 的 BO 信息 中 最 关键 
的 一 项 就 是 BO 的 名 称 。 回 忆 8.2.2 节 的 讨论 ， 我 们 谈 到 无 论 是 XX 服务 器 还 
是 应 用 ， 均 使 用 名 称 访问 BO。 所 以 ， 这 里 返回 的 BO 的 名 称 就 是 为 了 使 
DRI 应 用 通过 这 个 名 称 访问 BO。 看 到 名 称 ， 我 们 习惯 上 将 其 理解 为 字符 
串 ， 实 际 上 在 内 核 的 DRM 模 块 中 ， 为 BO 的 名 称 分 配 有 的 古 一 个 数字 。 


2.X 服 务 需 创建 BO 


xX 服务 右 中 处理 OpenGL 应 用 为 帧 缓冲 创建 BO 请 求 的 函数 是 
ProcDRI2GetBuffers WithFormat: 


XOrg-server-1.12.2/hw/xfree86/dri2/dri2ext.c: 


static int ProcDRI2GetBuffersWithFormat (Clientptr client) 


attachments = (unsigned int *) &stuff [1]; 


buffers = DRI2GetBuffersWithFormat (pDrawable, 


&width, &height, 
attachments, 


stuff->count, &count).， 


return send buffers replyl(client, pDrawable, buffers, 
} 


国 数 ProcDRI2GetBuffersWithFormat 首 先 从 应 用 的 请 求 中 提取 
attachments， 然 后 调用 函数 DRI2GetBuffersWithFormat 创 建 BO， 最 后 通 
过 函数 send_buffers_reply 将 BO 的 信息 发 送 给 应 用 。 


百 wy 


汕 数 DRI2GetBuffersWithFormat 将 调用 疯 数 do_get_buffers 为 帧 绥 冲 
创建 BO: 


XOIg-Server-1.12.2/hw/xfree86/dri2/dri2.c: 


static DRI2Buffterptr * do get buftfteres(,,:) 


tor (1 二 (0: 


i < count; 1i++) 1{ 


i 下 (aL1ocates Or TOUBSG Duley. ¥) 


函数 do_get_buffers 中 的 变量 count 为 应 用 请 求 创建 BO 的 数量 ， 显 
然 ， 疯 数 do_get_buffers 是 在 循环 为 窗口 的 绥 冲 区 创建 BO。 其 中 
allocate or reuse buffer 调 用 1830DRI2CreateButffer 为 缕 冲 区 创建 BO: 


xf86-video-intel-2.13.0/src/intel dri,.c: 
01 static DRI2Buffer2Ptr I830DRI2CreateBuffer (DrawablepPptr 
02 drawable, unsigned int attachment, ...) 


03 { 


05 if (attachment == DRI2BufferFrontLeft) { 
06 pixmap = get front buffer (drawable).,; 


08 } 

10 if (pixmap == NULL) 1 

To i = SCreen->CreatePixmap(...); 
14 } 


16 if ((buffer->name = pixmap flink (pixmap)) == 0) { 


在 前 面 讨 论 2D 演 染 时 ， 我 们 已 经 看 到 ，X 服 务 亏 局 动 时 ，2D 驱 动 在 
初始 化 输出 设备 时 已 经 创建 了 前 缓冲 的 BO。 因 为 各 个 窗口 是 共 宇 这 个 
前 缓冲 的 ， 因 此 ， 如 采 DRI 应 用 申请 为 前 缓冲 创建 BO， 则 
I830DRI2CreateBuffer 驶 不 必 创 建 了 了， 其 调用 函数 get_front_buffer 百 接 否 
找 前 缓冲 的 BO， 如 代码 第 5~8 行 所 示 。 


如 果 疯 数 1830DRI2CreateBuffer 执 行人 到 第 10 行 代 公 时，pixmap 依 然 
空 ， 则 说 明 这 次 不 是 为 前 绥 冲 创建 BO， 于 是 调用 消 数 CreatePixmap 为 其 
他 缓冲 创建 BO。 在 UXA 中 ，CreatePixmap 指 癌 疯 数 


intel_uxa_create_pixmap: 


xf86=video=intel-=2.19.0/src/intel uxa.c: 


static PixmapPtr intel uxa create pixmapl(...) 


| 


priv=>ho = drm intel bo alloc for render(,.,.,.): 


纯 数 drm intel bo alloc for render 是 库 libdrm 提 供 的 接口 ， 其 请 求 
内 核 的 DRM 模 块 为 缓冲 区 创建 BO。 


创建 好 BO 后 ， 函 数 I1830DRI2CreateBuffer 使 用 库 libdrm 提 供 的 接口 
pixmap_flink， 请 求 内 核 的 DRM 模 块 为 BO 命名 ， 见 第 16 行 代码 。 


在 创建 完 缓冲 区 的 BO 后 ， 让 我 们 回 到 郴 数 
ProcDRI2GetBuffersWithFormat， 其 将 调用 send_buffers_reply 将 BO 的 相 


天 信息 及 大 给 应 用 程序 : 


XOorg-server-1.12.2/hw/xfree86/dri2/dri2ext.c: 


statie Tint. send butferns mepLly ts) 


人 


可 二 


| 


bE BB 兴 本 TdT4 { 
XDRI2Buffer buffer; 


/* Do not send the real front buffer of a window to the client.*/ 
if ((pDrawable->type == DRAWABLE WINDOW) 


&& (buffers[i]->attachment == DRI2BufferFrontLeft)) { 
Continue, 


| 


buffer.attachment = buffers [1L] ->attachment ; 
buffer.name = buffers [1I] ->name ; 


WriteToClient (client, sizeof (XDRI2Buffezcr) ，&buffezr) ; 


return SuccesSsS ; 


仔细 观察 send_buffers_reply， 可 见 ， 即 使 应 用 同 X 服 
要 前 绥 冲 的 BO 的 申请 ，X 服 务 


HB 一个 


送 给 应 用 程序 。 


务 器 及 出 了 过 
费 也 不 会 将 真正 的 前 绥 冲 的 BO 的 信息 友 
事实 上 ， 对 于 运行 在 X 窗 口 系统 上 的 OpenGL 应 用 来 


说 ， 尺 官 应 用 程序 有 可 能 要 求 直 接 绘 制 在 击 绥 冲 上 ， 但 是 X 服 务 句 友 给 


OpenGL 应 用 的 只 是 一 个 伪 前 组 种 ， 和 普通 的 后 绥 冲 没有 本 质 区 
这 里 也 可 以 看 出 ，X 不 允许 DRI 应 用 不 通 


别 。 从 
过 X 直 接 在 六 绥 冲 上 绘制 ，X 不 


名 望 应 用 把 屏 欠 显示 搞 乱 ，X 要 对 表 绥 冲 有 绝对 的 控制 权 。 如 果 读 者 训 
悉 Linux， 一 定 知道 第 1 版 的 DRI， 在 开启 符合 管理 器 后 ， 运 行 DRI 应 用 
时 ， 那 个 闭 名 的 glxgears 转 动 的 齿轮 不 党 复合 管理 峰 管 理 的 bug。 


3. 更 新 GPU 状态 


系统 中 可 能 


存在 多 个 OpenGL 程 序 并 行 运行 但 是 只 有 一 个 GPU 的 情 


况 。 因 此 ，GPU 要 分 时 给 不 同 的 OpenGL 程 序 使 用 。 如 同 进 程 切换 时 ， 
CPU 需要 切换 上 下 文 一 样 ， 在 对 不 同 鸭 OpenGL 程 序 进行 泻 染 时 ，GPU 
也 需要 在 不 同 程序 之 间 切 换 。 


以 帧 缓冲 为 例 ， 每 个 OpenGL 程 序 都 有 自己 的 帧 缓冲 。 但 是 只 有 当 
前 进行 绘制 的 OpenGL 应 用 的 帧 缓冲 才 是 GPU 的 目标 帧 缓冲 。 因 此 ， 轨 
不 同 的 OpenGL 程 序 进行 切换 时 ，GPU 需 要 切换 记录 帧 缓冲 地 址 的 寄存 
器 ， 使 其 指向 当前 正在 进行 绘制 的 程序 的 帧 缓冲 。 


以 Intel i915 系 列 GPU 为 例 ， 在 其 3D 驱 动 中 ， 对 应 GPU 状态 的 结构 体 


为 struct i915 hw state: 


Mesa-8.0.3/src/mesa/drivers/dri/i915/i915 context.h: 
struct 1915 hw state 

GLUlint Ctx [IS15 CTX SETUP SIZ2E) 

GLUint Blendl[lI91 5 BLEND SETUP SI2E| 

GLUIinNnt Buffer lI9 15 DEST SETUP SIZE)| 


struct intel reglion *draw region,; 


结构 体 i915_hw_state 使 用 一 系列 的 数组 来 记录 GPU 的 状态 ， 其 中 指 
draw_region 指 问 的 就 是 保存 输出 的 图 像 的 像 系 阵列 的 BO。 


应 用 程序 从 X 服 务 咒 获取 了 各 个 绥 冲 区 的 BO 后 ， 需 要 更 新 GPU 中 师 
绥 冲 相 天 的 状态 。 以 i915 的 3D 驱 动 中 缕 冲 区 更 新 为 例 ， 更 新 GPU 的 帧 绥 


冲 状 态 的 函数 是 i915_update_draw_buffer: 


Mesa-8.0.3/src/mesa/drivers/dri/i915/i915 vtbl.c: 


1 static void i915 update draw buffer(struct intel context *intel) 
2 

4 struct intel renderbuffer *irb; 

5 irb = intel renderbuffer (fb-> ColorDrawBuffers|0]); 

6 ColorRegion = (irb && irb->mt) ? irb->mt->region : NULL; 

7 可 

8 intel=svtbl ;set draw region(intel, &colorRegion; wzZ 

9 

10)} 


第 5 行 的 变量 imb 显 然 是 指 同一 个 颜色 缓冲 区 。 


Intel GPU 的 3D 驱 动 中 采用 Mipmap 的 方式 保存 intel_region,，Mipmap 
是 一 种 为 了 加 快 泻 染 速度 和 减少 图 像 锯 天， 将 贴图 处 理 成 由 一 系列 被 预 
先 计算 和 优化 过 的 图 片 的 技术 。 因 此 ， 第 6 行 代码 中 的 "irb->mt-> 
region" 就 是 指向 封装 颜色 缓冲 BO 的 intel_region 对 象 。 


那么 _ColorDrawBuffers 中 的 第 0 个 绥 冲 指 问 的 是 哪个 颜色 绥 冲 呢 ? 
看 看 下 面 代码 搬 段 : 


Mesa-8.0.3/src/mesa/main/framebuffer.c: 


VOld mesa initialize window framebuffert(...) 


| 


if (visual->doubleBufferMode) 1 


fb->ColorDrawBuffer|l0) = GL BACK; 
fb-> ColorDrawphufferIindexes|0] = BUFFER BACK LEFT; 


根据 上 和 面 的 代码 片段 可 见 ， 这 个 颜色 绥 冲 束 是 后 缓冲 。 


我 们 继续 看 函数 i915_update_draw_buffer 中 的 函数 set_draw_region， 
对 于 i915 失 3D 有 驱动， 该 阔 数 指针 指 同 i915_set_draw_region: 


Mesa-8.0.3/src/mesa/drivers/dri/i915/i915 vtbl.c: 


01 static vord 1915 set. draw reglion(etruct intel context “intel, 


02 站 在 LO VeoLor Eegronslly ss»3 
03 { 

04 ‘i 

05 struct 1915 hw state *state = &1i915->state; 

06 和 

07 intel region reference(&state->draw region, 

08 se FBGLoOnNs lO} 

09 

10 LTS Sat Bit Fute. or PegLom 

二 二 &Sstate->Bufter[I915 DESTREG CBUFADDRO], 
3 COLor vegLionst0l, BUF. 3D TD COLOR BACK 
13 5 

14 I915 STATECHANGE (i1915, I915 UPLOAD BUFFERS); 

15 } 

16 

17 Mesa-8.0.3/src/mesa/drivers/dri/i915/i915 context.h: 
如 


19 #define I915 DESTREG CBUFADDRO 0 


其 中 ， 第 7~8 行 代码 中 调用 的 函数 intel_region_reference 比 较 简 单 ， 
就 是 将 i915_hw_state 中 的 draw_region 设 置 为 color_regions[0]， 其 束 是 我 
们 隐 周 在 函数 i915_update_draw_buffer 中 讨论 的 后 缓冲 。 


在 考察 第 10~12 行 代码 调用 的 函数 i915_set_buf_info_for_region 前 ， 
先 来 看 一 下 传 给 这 个 函数 的 3 个 参数 。 根 据 第 19 行 的 宏 定 义 ， 可 见 第 1 个 
参数 就 是 i915_hw_state 中 数组 Buffer 的 首 地 址 ， 第 2 个 参数 
color_regions[0] 是 后 绥 冲 ， 第 3 个 参数 从 名 字 上 可 以 猜 出 大 概 是 GPU 用 来 
标识 后 缓冲 的 ID。 了 解 了 参数 后 ， 我 们 来 看 一 下 这 个 函数 的 具体 代码 : 


Mesa-8.0.3/src/mesa/drivers/dri/i915/1i915 wtbl.c: 


VOld 1915 Bet buf info for Tregionluint32 七 *atate, 
Streaet ITntel Tedrorn region. WINnt32 tt. Batter 1d) 


_3DSTATE BUF INFO CMD; 
puffer 1id; 


显然 ， 了 亲 数 i915_set_buf_info_for_region 就 是 设置 i915_hw_state 中 数 
组 Buffer 的 前 两 个 元 素 的 值 。 第 一 个 元 素 被 典 值 为 GPU 指令 
_3DSTATE_BUF_INFO_CMD; 第 二 个 元 素 被 赋值 为 标识 后 缓冲 的 ID。 


更 新 了 i915_hw_state 中 的 状态 信息 后 ， 函 数 i915_set_ draw_re 机 
用 I915_STATECHANGE 将 状态 信息 组 织 到 批量 缓冲 。GPU 将 在 进行 
制 之 前 ， 从 批量 缓冲 中 读 取 这 些 信息 ， 并 更 新 自身 的 状态 
I915_STATECHANGE 最 终 调 用 函数 i915_emit_state 组 织 批量 缓冲 : 


Mesa-8.0.3/src/mesa/drivers/dri/i915/i915 vtbl.c: 


01 static void 1915 emit state(struct intel context *intel) 


02: 

03 Se 

04 BEGIN BATCH (count ) ; 

05 OUT BATCH (State->Buftfer[I915 DESTREG CBUFADDRO] ) ; 
06 OUT PATCH (state->Buffer [1I915 DESTREG CBUFADDR]1] ) ; 
07 if (state->draw region) { 

08 OUT RELOC (state->draw reglion->bo, 

09 I915 GEM DOMAIN RENDER, I915 GEM DOMAIN RENDER, 0); 
10 } else { 

1 

Ez | 

3 

14 Mesa-8.0.3/src/mesa/drivers/dri/intel/intel reg.h: 

Es 


16 #define 3DSTATE BUF INFO CMD (CMD 3D| (0x1d<<24) | (0x8e<<16) |1) 
7 /和 了 WO 二 *y 


18 #define BUF 3D ID _ COLOR BACK (0x3<<24) 

19 #define BUF 3D ID DEPTH (0x7<<24) 

2 

21 we Dword 2 wi 

22 #define BUF 3D ADDR (x) ((x) & ~0X3) 


根据 第 5~6 行 代码 ， 批 量 缓冲 中 的 前 两 个 元 系 分 别 为 1915_hw_state 
中 Buffer 数 组 中 的 第 一 个 和 第 二 个 元 素 。 我 们 刚刚 讨论 过 ， 这 两 个 元 系 
分 别 是 GPU 指令 3DSTATE_BUF_INFO_CMD 和 GPU 用 来 标识 后 缓冲 的 
ID 的 。 


笔者 没有 找到 有 关 GPU 指 令 3DSTATE BUEF INFO_CMD 的 参考 ， 
但 是 根据 上 面 代码 第 16~22 行 的 宏 定 义 ， 我 们 可 以 猜 出 一 二 : 


1) 3DSTATE BUF _ INFO_CMD 是 个 指令 ID， 应 该 是 告诉 GPU 更 
新 相关 绥 冲 的 信息 。 


2) 在 指令 但 之 后 ， 紧 接 的 第 一 个 参数 中 至 少 应 该 包含 要 更 新 的 绥 


冲 区 的 ID， 这 里 BUEF 3D ID COLOR BACK 应 该 是 GPU 内 部 用 来 标识 
后 绥 冲 的 ID 。 我 们 看 到 这 个 ID 大 约 占 据 从 24 位 开始 的 几 位 ， 如 011 对 应 
的 是 后 缓冲 ，111 对 应 的 是 深度 缓冲 。 


3) 既然 通知 GPU 更 新 后 缓冲 的 地 址 ， 当 然 需 要 将 后 缓冲 所 在 的 BO 
告知 GPU 了。 所 以 指令 但 之 后 的 第 二 个 参数 应 该 是 更 新 的 缓冲 的 BO。 
当然 了 了 ， 这 里 要 使 用 BO 在 GPU 地 扯 空 间 的 地 址 。 上 面 代码 第 8~9 行 的 安 
下 是 在 批量 绥 冲 中 写 入 了 后 绥 冲 BO 的 地 址 。 


事实 上 ， 除 了 更 新 了 GPU 中 后 缓冲 的 信息 外 ， 也 更 新 了 GPU 的 其 他 
状 在 ， 这 里 不 再 一 一 讨论 。 


8.4.2 ” 泻 染 Pipleline 


与 2D 演 染 相 比 ，3D 泻 染 要 复 玉 得 多 。 束 如 同 有 些 复 森 的 绘画 过 
程 ， 要 分 成 几 个 阶段 一 样 ，OpenGL 标 准 也 将 3D 的 泻 染 过 程 划 分 为 一 些 
阶段 ， 并 将 由 这 些 阶段 组 成 的 这 一 过 程 形象 地 称 为 Pipleline。 


应 用 程序 建立 基本 的 模型 包括 在 对 象 坐标 中 的 顶点 数据 、 顶 点 的 各 
种 属性 《比如 颜色 ) ， 以 及 如 何 连接 这 些 顶 点 〈 如 是 连接 成 直线 还 是 连 
接 为 三 角形 ) ， 等 等 ， 统 一 存储 在 顶点 缓冲 中 ， 然 后 作为 Pipeline 的 输 
入 ， 这 些 输 入 就 像 原材料 一 样 ， 经 过 Pipeline 这 台 机 器 的 加 工 ， 最 终生 
成 像素 阵列 ， 输 出 到 后 缓冲 的 BO 中 。 


OpenGL 的 标准 规定 了 一 个 参考 的 Pipeline， 但 是 各 家 GPU 的 实现 与 
这 个 参考 还 是 有 很 多 差别 的 ， 有 的 GPU 将 相应 的 阶段 合并 ， 有 的 GPU 将 
个 别 阶段 又 拆 分 了 ， 有 的 可 能 增加 了 一 些 阶 段 ， 有 的 又 砍 了 一 些 阶 段 。 
但 是 ， 大 体 上 整个 过 程 如 图 8-7 所 示 。 
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OpenGEL 使 用 顶点 的 集合 来 定义 或 通 近 对 象 ， 应 用 程序 建 模 实际 上 
怠 是 组 织 这 些 了 顶点， 当然 也 包括 顶点 的 属性 。Pipeline 的 第 一 个 阶段 束 
是 顶点 处 理 (vertex operations) ， 顶 点 处 理 单 元 将 几何 对 象 的 项 点 从 对 
象 坐标 系 变 换 到 视点 坐标 系 ， 也 束 是 将 三 维 空间 的 坐标 投影 到 二 维 举 
标 ， 并 为 每 个 顶点 赋 颜 色 值 ， 并 进行 光照 处 理 等 。 


(2) 图 元 装配 


显然 ， 很 多 操作 处 理 是 不 能 以 项 点 单独 进行 处 理 的 ， 比 如 裁减 、 光 
顶 化 等 ， 需 要 将 顶点 组 竣 成 几何 图 形 。Pipeline 将 处 理 过 的 顶点 连接 成 
为 一 些 最 基本 的 图 元 ， 包 括 点 、 线 和 三 角形 等 。 这 个 过 程 成 为 图 元 萎 配 


(primitive assembly) 。 


任何 一 个 曲面 都 是 多 个 平面 无 限 珊 近 的 ， 而 最 基本 的 是 三 点 表示 一 
个 平面 。 所 以 ， 理 论 上 ，GPU 将 曲面 痢 划 分 为 右 干 个 三 角形 ， 也 就 是 使 
用 三 角形 进行 朗 配 。 但 是 也 不 排除 现代 GPU 的 设计 着 们 使 用 其 他 的 更 有 
效 的 图 元 ， 比 如 梯形 ， 进 行 猴 配 。 


(3) 光栅 化 


我 们 前 文 拓 人 到， 图 形 是 使 用 像 系 阵列 来 表示 的 。 所 以 ， 图 元 最 终 要 
转化 为 像 系 阵 列 ， 这 个 过 程 称 为 光栅 化 (rasterization〉， 我 们 可 以 把 光 
机 理解 为 像 系 的 阵列 。 经 过 光栅 化 之 后 ， 图 元 被 分 解 为 一 些 厂 断 
(fragment〉 ， 每 个 厂 段 对 应 一 个 像 系 ， 其 中 有 位 置 值 〈 像 系 位 置 )、 


闫 色 、 纹 理 坐 标 和 深度 等 属性 。 
(4) 片段 处 理 


在 Pipeline 更 新 帧 缓冲 之 前 ，Pipeline 执 行 最 后 一 系列 的 针对 每 个 片 
段 的 控 作 。 对 于 每 一 个 厂 断 ， 朋 先进 行 相关 的 囊 试 ， 比 如 深度 测试 、 棕 
板 测试 。 以 深度 测试 为 例 ， 只 有 当 睫 段 的 深度 值 小 于 深度 缓存 中 与 亡 段 
相对 应 的 像 系 的 深度 值 时 ， 颜 色 缓 冲 、 深 度 缓冲 中 的 与 片段 相对 应 的 候 
系 的 值 才 会 被 这 个 厂 段 中 对 应 的 信息 更 狐 。 


Pipeline 可 全 部 由 软件 实现 〈CPU) ， 也 可 全 部 由 硬件 实现 
(GPU) ， 或 者 二 者 混合 ， 这 完全 取决 于 GPU 的 能 力 。 对 于 GPU 没 有 
3D 计 算 能 力 的 ， 则 Pipeline 完 全 由 软件 实现 。 比 如 ，Mesa 中 的 
_tnl_default_pipeline， 即 是 一 个 纯 软 件 的 Pipeline，Pipeline 中 的 每 一 个 阶 
段 均 由 CPU 负责 演 染 : 


Mesa-8.0.3/src/mesa/tnl/t pipeline.c: 


const struct tnl pipeline stage * tnl default pipeline[] = { 
& tnL vertex transform stage, 
& tnl normal transform stage, 
& tnl lighting stage, 
& tnl texgen stage, 


& tnl texture transform stage, 
& tnl point attenuation stage, 
& tnl vertex program stage, 

tk tnl fog coordinate stage, 

tk tnl render stage., 

NULL 


和 


对 于 3D 计 算 能 力 比 较 强 的 GPU， 如 ATI 的 GPU，Pipeline 完 全 由 GPU 


实现 。 


而 有 些 GPU 能 力 不 那 么 强大 ， 那 么 CPU 束 要 参与 图 形 泻 染 了 ， 


— 


此 ，Pipeline 一 部 分 由 CPU 实现 ， 一 部 分 由 GPU 实现 ， 比 如 基于 Intel i915 
GPU 的 Pipeline: 


Mesa-8.0.3/src/mesa/drivers/dri/i915/intel render.c: 


const struct tnl pipeline stage *intel pipeline[] = { 
& tnl vertex transform stage, 
& tnl normal transform stage, 
& tnl lighting stage, 
& tnl fog coordinate stage, 
& tnl texgen stage, 
& tnl] texture transform stage, 
& tn point attenuation stage, 
& tnl] vertex program stage, 
二 区 
& intel render stage, 
#endif 
& tnl render stage, 
0 ， 


} 


相 比 于 _tnl_default_pipeline，intel _pipeline 使 用 _intel _ render_stage 昔 


所 了 _tnl_render_stage。 


以 Intel GPU 为 例 ，Pipeline 的 往 染 过 程 大 致 如 网 8-8 所 示 。 
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图 8-8 intel GPU 3D 泻 染 过 程 


1) 首先 ， 应 用 程序 通过 glVertex 等 OpenGL API 将 数据 写 入 用 户 衬 
则 的 顶 后 缓冲 。 


2) 当 程 序 显 示 调 用 glFlush， 或 者 ， 当 顶点 缓冲 满 时 ， 其 将 上 自动 激 
活 glFlush，glFlush 将 启动 Pipeline。 以 intel_pipeline 为 例 ，Pipeline 的 前 几 
个 阶段 是 CPU 负 员 的 ， 因 此 ， 所 有 的 输入 来 自用 户 空间 的 顶点 缓冲 ， 计 
算 结 末 也 输出 到 用 户 空 间 的 顶点 缓冲 ， 在 最 后 的 _intel_render_stage 阶 


段 ， 投 照 intel GPU 的 要 求 ， 从 公共 的 顶点 缓冲 中 谈 取 数据 ， 使 用 intel 
GPU 的 3D 张 动 中 提供 的 函数 ， 重 新 组 织 一 个 符合 intel GPU 规范 的 顶点 


组 首 。 


3) glFlush 调 用 3D 驱 动 中 的 函数 intel_glFlush。intel_glFlush 首 先 将 
顶点 绥 种 和 批量 绥 剖 复制 到 内 核 空 间 对 应 的 BO， 实 际 上 吏 是 相当 于 复 
制 到 了 GPU 的 显存 空间 ， 这 样 GPU 就 可 以 访问 了 。 然 后 ， 内 核 的 DRM 
模块 将 按照 Intel GPU 的 要 求 建立 一 个 环形 缓冲 区 (ring buffer) 。 


4) 准备 好 环形 缓冲 区 后 ， 内 核 中 的 DRM 模 块 将 环形 缓冲 区 的 信 
轧 ， 如 绥 剖 区 的 头 和 尾 的 地 址 分 别 写 入 GPU 的 寄存 敌 Head Offset 和 Tail 
Offset 等 。 当 DRM 向 寄存 器 Tail Offset 写 入 数据 时 ， 将 触发 GPU 读 取 并 执 
行 环形 缓冲 区 中 的 命令 ， 启 动 GPU 中 的 Pipeline 进 行 泻 染 。 最 后 ，GPU 
HPipepline 将 生成 的 像 系 阵列 输入 到 帧 缓 神 ，。 


1. 建 立 数 学 模型 


使 用 OpenGL 绘 制 ， 首 移 需 要 将 绘制 的 内 容 使 用 数学 模型 描述 出 
来 ， 这 个 描述 的 过 程 的 了 最终 结果 将 保存 在 顶点 缓冲 中 。 我 们 以 冰 数 
到 Vertex3f 为 例 ， 来 侧 单 看 看 这 个 过 程 。 


因为 可 能 存在 多 个 上 和 下文， 比如 茶 个 上 下 文 使 用 的 是 软件 泻 染 ， 瑟 
外 一 个 上 下 文 使 用 的 是 便 件 这 染 ， 因 此 ，Mesa 采 用 分 友 函 数 表 
(dispatch table) 实现 访问 当前 上 下 文 的 GEL 国 数 。 


GL 上 下 文中 有 一 个 指 问 结构 体 _glapi_table 的 指针 Exec， 用 于 指 问 
当 机 上 上 下文 的 分 友 函 数 表 ， 具 体 代 人 码 如 下 : 


Mesa-8.0.3/src/mesa/main/mtypes.h: 


struct gl context 


{ 


struct glapi table *Exec,; /**< Execute functions */ 


水 数 表 作 为 GL 上 下 文 的 一 部 分 ， 在 创建 上 下 文 时 进行 初始 化 ， 具 
体 代 码 如 下 : 


Mesa-8.0.3/src/mesa/drivers/dri/i915/intel context.c: 


bool intel]lInitContext!(...) 


if (! mesa initialize context{(,..) { 


VDo CreateContext (ctx; 


其 中 ， 了 函数 _ mesa initialize_context 创 建 了 子 数 表 ， 并 初始 化 了 函数 


表 中 的 部 分 GL 函数 ， 如 glFlush。 函 数 glVertex3f 是 在 初始 化 VBO 时 初始 
化 的 : 


Mesa-8.0.3/src/mesa/vbo/vbo exec.c: 


TRNA SLM Hl 人 ER 3 


人 


Vbo exec vtx init{( exec ); 


} 


Mesa-8.0.3/src/mesa/vbo/vbo exec api.c: 


Vold vbo exec vtx init( struct vbo exec context *exec ) 


Vbo exec vtxfmt init( exec ); 
mesa install exec vtxfmt( ctx, &exec->vtxfmt ); 


} 


static void vbo exec vtxfmt init( struct vbo exec context *exec ) 


人 


vfmt=>Vertex3f = Vbo Vertex3f; 


在 函数 vbo_exec_vtxfmt _ init 中， 本 数 指针 Vertex3f 指 加 的 困 数 最 后 


会 收 mesa_install_exec_vtxfmt 安 闭 到 函数 表 中 ， 对 应 函数 glVertex3f。 
我 们 先 来 看 看 函数 vbo_Vertex3f 的 实现 : 


Mesa-8.0.3/src/mesa/vbho/vbho exec apl.c: 
#define TAG (XxX) vbo ##x 

#include "vbo attrib tmp,.h" 
Mesa-8.0.3/src/mesa/vbho/vbho attrib tmp.h: 


static Vvold GLAPIENTRY TAG (Vertex3f) (GLiloat x, GLfloat Y， 
GLfloat 2z) 


GET CURRENT CONTEXT (ctx); 
ATTR3F (VEO ATTRIB POS, XxX, YY, 2);， 


根据 宏 TAG 的 定义 ， 显 然 ，TAG(Vertex3f) 束 是 Vbo_Vertex3f 有 的 消 数 
实现 。 其 中 宏 ATTR3F 的 定义 如 下 : 
Mesa-8.0.3/src/mesa/vbo/vbo attrib tmp.h: 


#define ATTR3F( A, X, Y, 2 ) NTTRI 二 未 


Mesa-8.0.3/src/mesa/vbo/vbo exec api.c: 


#detine BATTR( A, N, V0, YI VW Vv ) 和 
do { \ 
struct vbo exec context *exec = &Vvbo Context (ctx) ->exec; \ 
wp \ 
{ \ 
GLfloat *dest = exec->vtx.attrptr[A]; 
if (N>0) dest [0] = V0; \ 
if (N>1) dest[1] = V1; \ 
if (N>2) dest[2] = V2; % 
if (N>3) dest [3] = V3; \ 
} \ 

} while (0) 


根据 宏 ATTR 的 定义 可 见 ，vbo_Vertex3f 就 是 将 数学 模型 的 相关 数据 
与 入 顶点 缓冲。 


了 解 了 函数 vbo_Vertex3f 的 实现 后 ， 我 们 看 看 
mesa install exec vtxfmt 古 如 何 将 其 安装 到 函数 表 有 的 : 


Mesa-8.0.3/src/mesa/main/vtxfmt.c: 


VolQ mesa install exec vtxfmt (struct gl context *ctx, 


{ 


Const GLvertexformat *vfmt) 


if (ctx->API == API OPENGL) 
ingtalil vtxfmt( ctx->Execs vfmt ); 


} 


statrie void Tmtall Et tereuct , glapl table *tab, 
const GLvertexformat *vfmt ) 


SET Vertex3f (tab, vfmt->Vertex3f).; 


国 数 SET _ Vertex3f 的 相关 代 人 码 如 下 : 


Mesa-8.0.3/src/mesa/main/dispatch.h: 


static inline void SET Vertex3f (struct glapl table *disp, 


void (GLAPIENTRYP fn) (GLfloat, GLfloat, GLfloat)) { 
SET by offset (disp, gloffset Vertex3f, fn); 


| 

#define gloffset Vertex3f 136 

#define SET by offset (disp, offset, fn) \ 
de 和 二 


wn 
({ glapi proe *) (disp)} [offset] = ( glapi proc} 二 nr \ 


} while (0) 


为 宏 _gloffset_Vertex3f 的 定义 为 136， 所 以 宏 SET_by_offset 设 置 也 
数 表 中 第 136 项 的 函数 指针 指 回 函数 vbo_Vertex3f。 我 们 来 看 看 GEL 函数 
表 中 的 第 136 项 的 函数 指针 : 


Mesa-8.0.3/src/mapi/glapi/glapitable.h: 


struct glapi table 


人 


Vold (GLAPIENTRYP Vertex3f) (GLfloat x, GLfloat y, GLfloat 2z); 
Aw L366 *y 


我 们 看 到 函数 表 中 的 第 136 项 是 Vertex3f， 而 不 是 glVertex3f， 是 不 
是 很 困惑 ? 


事实 上 ， 由 于 采用 这 种 跳 转 函数 表 的 方式 ， 给 GL 函数 调用 市 来 许 
多 不 必要 的 开销 ， 因 此 ，Mesa 进 行 了 必要 的 优化 。 比 如 ， 在 IA32 乎 台 
上 ，Mesa 使 用 汇编 语言 实现 OpenGL API 规 定 的 这 些 函 数 。 相 比 使 用 C 语 
言 ， 使 用 汇编 语言 实现 的 函数 编译 后 的 机 仑 指令 要 更 精简 一 些 ， 相 关 代 
但 如 下 : 


Mesa-8.0.3/src/mapi/glapi/glapi x86.S: 


01 GLNAME (gl dispatch functions start): 


02 i 

03 GL STUB (Vertex3f, 136, Vertex3f@12) 

04 

05 

06 # define GL STUB (fn,off,fn alt) 
7 GL: PREEIXLEN, Sr Rally 
08 2 \ 
9 CALL ( x86 get dispatch) :; X 
10 JMP (GL OFFSET (off)) 

a 


12 # define GL PREFIX (n,n2) GLNAME (CONCAT (gl1,n)) 


因为 要 处 理 多 种 情况 ， 青 加 上 一 些 籁 外 的 汇编 伪 指 令 ， 所 以 代码 比 
较 复 来 ， 为 了 增加 可 读 性 ， 笔 者 进行 了 必要 的 删 减 。 


从 第 1 行 代码 处 开始 ，Mesa 使 用 宏 GL_STUB 开 始 定义 OpenGL API 
规定 的 函数 ， 其 中 第 3 行 代 但 定义 的 束 是 函数 glVertex3f。 


注意 定义 函数 使 用 的 宏 GL_STUB， 其 在 第 6~10 行 代码 定义 。 其 中 
第 7 行 代码 定义 的 是 函数 名 ， 代 人 码 中 宏 GL_PREFIX 在 第 12 行 代码 定义 ， 
束 是 给 函数 名 称 前 加 个 前 缀 gl]， 所 以 


GL PREFIX (Vertex3t, Vertex3ft@12) 


展开 后 为 : 
glVvertex3t 
可 见 ， 第 3 行 代码 使 用 宏 GL_STUB 定 义 的 就 是 函数 glVertex3f。 


我 们 再 来 看 看 宏 GL_STUB 定 义 的 函数 体 。 第 9 行 代码 获取 函数 表 所 
在 的 基 址 ， 然 后 跳 转 到 偏 移 of 处 ， 见 第 10 行 代码 。 以 函数 glVertex3{ 为 
例 ， 根 据 第 3 行 代码 可 见 ， 这 个 偏 移 是 136。 也 就 是 说 ， 当 程序 执行 函数 
到 Vertex3f 时 ， 其 将 跳 转 到 函数 表 中 第 136 项 指针 指 同 的 函数 。 


数 表 
数 束 


而 表面 疯 数 SET_Vertex3f 下 是 将 函数 vbo_Vertex3f 安 铸 到 J 了 EP 
的 第 136 项 。 也 就 是 说 ， 当 执行 疯 数 glVertex3f 时 ， 实 际 跳 转 到 的 2 


是 vbo Vertex3f。 


区 如 


2. 司 动 Pipeline 


在 建 模 后 ， 应 用 将 顶点 数据 存 入 了 顶点 缓冲 ， 加 工 需要 的 原材料 已 
经 准备 好 了 ， 接 下 来 束 需 要 开动 Pipeline 这 人 台 加 工 机 器 了 。 那 么 ， 这 个 
机 禹 什么 时 候 运 转 起 来 呢 ? 通 弟 是 在 程序 中 显示 调用 疯 数 glFlush 时 。 当 
然 ， 一 旦 顶点 绥 冲 已 经 充满 了 ， 也 会 目 动 调 用 glFlush。 读 痢 可 能 有 个 疑 
问 : 我 们 编写 程序 时 ， 有 时 并 没有 电 示 调用 glFlush 啊 ? 没 销 ， 那 是 通 靖 
情况 下 ， 我 们 使 用 的 都 是 局 用 了 双 绥 冲 的 OpenGL， 即 前 绥 冲 和 后 绥 
冲 。 对 于 启用 双 绥 冲 的 OpenGL 程 序 ，OpenGL 规 定 ， 当 程序 在 后 绥 冲 泻 
染 完 成 后 ， 请 求 交 换 到 前 后 缓冲 时 ， 使 用 OpenGL 的 API 
glXSwapBuffers， 侧 实际 上 ， 哨 数 gljXSwapBuffers 己 经 蔡 我 们 调用 了 
gjFlush 。 


当 调 用 函数 glFlush 时 ， 将 通过 函数 表 跳 转 到 函数 _mesa_flush: 


Mesa-8.0.3/src/mesa/main/context.c: 


void mesa ihushlstruct gl context *ctx) 
FLUSH CURRENT( ctx, 0 );， 
if (ctx->Driver.Flush) 1 
ctx->Driver,.Flush(ctx).; 


函数 _mesa flush 首 先 使 用 宏 FLUSH CURRENT 启 动 CPU 人 负责 的 


Pipeline。 在 CPU 人 负 贡 的 Pipeline 运 行 完 毕 后 ，_mesa_flush 调 用 驱动 中 的 
Flush 也 数 将 用 户 空 间 的 项 点 绥 冲 、 批 量 绥 冲 的 数据 复制 到 内 核 空间 ， 
并 启动 GPU 中 的 Pipeline。 


宏 FLUSH_CURRENT 调 用 哨 数 _tnl_draw_prims 开 动 Pipeline， 具 体 
代码 如 下 : 


Mesa-8.0.3/src/mesa/tnl/t draw.c: 


VoL Tnil. dea DELMSt sd 


EOE (i nm Os BE 2 Tr pilinds) 4 
for (inst = 0; inst < prim[i] .num instances; inst++) 1 


TNL CONTEXT (ctx) ->Driver.RunPipeline (ctxX) ; 


我 们 看 到 ， 对 于 每 个 绘制 原 语 ， 函 数 tnl_draw_prims 分 别 启 动 
Pipeline 对 其 进行 加 工 。 对 于 Intel GPU 的 3D 了 驱动，RunPipeline 指 向 的 函 


数 是 intelRunPipeline: 


Mesa-8.0.3/src/mesa/drivers/dri/i915/intel tris.c: 


static void intelRunpipeline(struct gl] Context * ctx) 


人 
tnl run pipeline (ctx); 


” 


Mesa-8.0.3/src/mesa/tnl/t pipeline.c: 


wd tnl. Fon Pipelinet ptruct: ql. ontext wet } 


人 


for (i = 0; i < tnl->pipeline.nr stages ; i++) { 
struct tnl pipeline stage *s = &tnl->pipeline.stages [i]; 
EE [SEU tt J 
break.; 


疯 数 _tnl_run_pipeline 依 次 运行 Pipeline 中 每 个 阶段 的 run 孙 数 ， 一 日 


二 


某 个 阶段 的 函数 run 返 回 False， 则 表明 整个 Pipeline 运 行 结束 。 
3.Pipeline 中 的 软件 计算 阶段 


所 谓 的 软件 计算 阶段 ， 古 指 计算 过 程 是 由 CPU 来 负责 的 。CPU 从 上 
下 文中 获取 上 个 阶段 的 状态 信息 ， 进 行 计算 ， 然 后 将 计算 结 来 你 存 人 到 上 
下 文中 ， 作 为 下 一 个 阶段 的 输入 。 上 下 文 的 数据 抽象 为 结构 体 


TNLcontext， 其 中 非常 重要 的 一 个 成 员 是 结构 体 vertex_buffer: 


Mesa-8.0.3/src/mesa/tnl/t context.h: 


tvypedef struct 


| 


struct vertex Duffer vb; 


| TNLcontext ; 


顾名思义 ， 结 构 体 vertex_buffer 征 你 存 顶 点 数据 鸭 。 软 件 计 算 阶 段 
的 所 有 顶点 数据 来 自 这 个 vertex_buffer， 经 过 变换 后 的 顶点 数据 也 输出 


到 这 个 vertex_buffer 中 。 


以 intel_pipeline 中 的 texgen 除 段 为 例 ; 


Mesa-8.0.3/src/mesa/tnl/t vb vertex.c: 

01 static GLboolean run texgen Stage( struct gl context *ctx, 

02 struct tnl pipeline stage *stage ) 
O03 4 

04 struct vertex buffer *VB = &TINL CONTEXT (ctx) ->vb; 

上 三 struct texgen stage data *store = TEXGEN stage DATA (stage),; 
07 for {i = 0 ; 1 < ctx->Const.MaxTextureCoordUnits : 1++) { 


09 store->TexgenFunc|[i] ( ctx, store, 1 ); 


a VB->AttribPtr [VERT ATTRIB TEXO + 1I] = 
4 tkstore->texcoord[il]; 


第 9 行 代 码 计算 纹理 的 坐标 ， 并 将 结果 保存 到 store 的 数组 texcoord 
中 。 而 在 函数 TexgenFunc 的 计算 过 程 中 ， 使 用 了 来 自 TINLcontext 中 的 结 
构 体 vertex_buffer 中 的 各 种 状态 信息 。 


计算 完成 后 ， 函 数 run_texgen_stage 也 将 这 个 阶段 的 计算 结果 保存 到 
了 TNLcontext 中 的 结构 体 vertex_buffer 中 ， 如 代码 第 11~12 行 所 示 。 


4.Pipeline 中 GPU 相 关 的 阶段 


很 难 要求 所 有 广 家 的 GPU 都 按照 一 个 标准 设计 ， 所 以 在 局 动 GPU 中 
的 便 件 阶段 之 前 ， 需 要 将 OpenGL 标 准 规定 的 标准 格式 的 顶点 缓冲 中 的 
数据 按照 具体 的 GPU 的 要 求 组 织 一 下 ， 然 后 再 传递 给 GPU。 下 面 我 们 就 
以 Pntel i915 系 列 GPU 的 Pipeline 中 的 _intel]_render_stage 为 例 ， 看 看 其 是 如 
何 为 GPU 准备 批量 绥 冲 的 。 


可 和 面 我 们 在 了 疯 数 _tnl_run_pipeline 中 看 到 ，Pipeline 在 运行 时 ， 是 依 
次 调用 各 个 阶段 的 run 胃 数 来 运行 各 个 阶段 的 。_intel_render_stage 了 阶段 


的 run 函 数 是 intel run render: 


Mesa-8.0.3/src/mesa/drivers/dri/i915/intel render.c: 


Ql static GLboolean intel run render(struct gl context * ctx; #5) 
3 


04 for (i = 0; i < VB->PrimitiveCount; i++) { 
05 GLuint prim = tnl translate prim(&VB->Primitiveli]),; 


06 GLUuint start = VB->Primitivel[li] .start; 
07 GLuint length = VB->Primitivel[i] .count ; 


9 intel render tab verts [prim & PRIM MODE MASK] (ctx, 
10 时 = 
Eh } 


下 汉 INTEL FIREVERTICES (intel),; 


其 中 ， 代 码 第 4~11 行 的 for 循 坏 ， 将 依次 调用 特定 GPU 相 关 的 函数 
按照 GPU 要 求 的 格式 重新 组 织 顶 点 缓冲 。 以 Intel GPU 的 3D 驱 动 为 例 ， 
其 另外 分 配 了 与 驱动 相关 的 顶点 绥 冲 存储 重新 组 织 顶点 数据 : 


Mesa-8.0.3/src/mesa/drivers/dri/intel/intel context.h: 


struct intel context 
struct 


drm intel bo *vb bo; 
uint8 七 *vb; 


} prim; 


在 结构 体 prim 中 ，vb 指 同 的 是 用 户 空 间 的 顶点 缓冲 ，vb_bo 指 同 的 
征 内 核 空 间 创建 的 保存 顶点 数据 的 BO。 


intel i915 系 列 GPU 的 3D 驱 动 中 组 织 三 角形 的 顶点 绥 冲 的 函数 为 


贝 局 绥 


intel_draw_triangle: 


Mesa-8.0.3/src/mesa/drivers/dri/i915/intel tris.c: 


static void intel draw triangle(struct intel context *intel, 
intelVertexPtr vO, intelVertexpPptr vl1l, intelVertexpPptr v2) 


GLuint vertsize = intel->vertex size; 
GLuint *vb = intel get prim space(intel, 3); 
En ep 


COPY DWORDS(J, Vb, vertsize, v0); 
COPY DWORDS(J, vb, vertsize, v1); 
COPY DWORDS'(J: vhs vertelze, V2) 


疯 数 intel_draw_triangle 使 用 宏 COPY_DWORDS 同 项 点 绥 冲 中 指定 
偏 移 处 写 入 顶点 数据 。 对 于 每 一 个 三 角形 来 说 都 包括 三 个 顶点 数据 ， 


从 4 


此 调用 三 次 宏 COPY_DWORDS， 将 三 角形 的 三 个 顶点 写 入 了 顶点 绥 


Uk hy 


冲 。 
处 理 完 顶点 缓冲 后 ， 函 数 intel run_render 就 将 开始 为 GPU 组 织 批量 


NA4AN 一 


绥 冲 。Intel GPU 的 3D 张 动 中 批量 缓冲 的 数据 抽象 如 下 : 


Mesa-8.0.3/src/mesa/drivers/dri/intel/intel context.h: 


struct intel context 


{ 


struct intel batchbuffer { 
drm intel bo *bo; 


Uint32 t maple8192]; 


} batch.; 


在 结构 体 intel_batchbuffer 中 ， 数 组 map 束 是 用 户 空 间 中 的 批量 绥 
冲 ，bo 指 问 的 束 古 内 核 空 间 中 的 你 存 批 量 数 据 的 BO。 可 见 ，3D 驱 动 中 
使 用 批量 缓冲 的 方式 与 2D 驱 动 中 的 基本 相同 。 


疯 数 intel_run_render 在 最 后 调用 了 宏 INTEL_FIREVERTICES， 开 局 
了 批量 绥 冲 的 生成 过 程 : 


Mesa-8.0.3/src/mesa/drivers/dri/intel/intel context.h: 


#¥define INTEL FIREVERTICES (intel) x 
do | \ 
if ((intel)->prim.flush) 所 
(intel) ->prim.flush (intel).; AN 


} while (0) 


疯 数 指针 flush 指 癌 了 疯 数 intel_flush_prim: 


Mesa-8.0.3/src/mesa/drivers/dri/i915/intel tris.c: 


01 void intel flush prim(struct intel context *intel) 


0 4 

83 Re 

04 BEGIN BATCH (2+ en) ; 

05 TE omc) 

06 OUT BATCH( 3DSTATE LOAD STATE IMMEDIATE 1 | cmd | ...)); 
07 if (vb bo != i915=>current vb bo) { 

08 OUT RELOC (vb bo, I915 GEM DOMAIN VERTEX, 0, 0); 
09 1915= Curent vb bo = Vb. bos 

10 } 

1 区 

12 OUT BATCH( 3DPRIMITIVE | 

由， PRIM INDIRECT | 

14 PRIM INDIRECT SEQUENTIAL | 

15 intel->prim.primitive | 

16 Count).; 

Ek OUT BATCH (offset / (intel->vertex size * 4));， 

18 ADVANCE BATCH (); 

有 

20 3 


这 里 ， 我 们 再 众 看 到 与 2D 驱 动 中 类 似 的 宏 定义 “如 OUT_BATCH 
等 ) ， 它 们 基本 与 2D 了 驱动 中 的 定义 完全 相同 ， 我 们 不 再 展开 分 析 这 些 
宏 定 义 了 。 在 上 述 组 织 批 量 缓冲 的 代码 片段 中 : 


1) 第 6 行 代 码 在 批量 缓冲 中 填 序 了 及 给 GPU 的 3D 命 令 的 指令 代码 
(opcode) ; 


2) 第 8 行 代 人 码 在 批量 绥 冲 中 填充 了 引用 的 你 存 项 后 数据 的 BO; 


3) 第 12~16 行 代码 在 批量 绥 冲 中 填写 了 渔 染 原 语 的 相关 信息 ， 比 如 


绘制 的 是 三 角形 还 是 线段 等 


4) 第 17 行 代码 指明 了 绘制 这 个 原 语 需 要 的 顶点 数据 在 你 存 项 点 数 
据 的 BO 中 的 伺 移 。 


至 此 ， 用 户 空间 中 的 批量 缓冲 也 准备 好 了 。 下 一 步 ， 就 是 将 用 户 空 
间 的 数据 复制 到 内 核 空 间 的 BO， 并 启动 GPU 中 的 Pipeline。 


5. 复 制 顶点 数据 和 批量 数据 到 内 核 空间 


在 Pipeline 的 软件 阶段 ， 所 有 阶段 的 计算 结果 都 保存 在 用 户 空间 ， 
为 了 启动 Pipeline 的 硬件 阶段 ， 显 然 需要 将 这 些 数据 复制 到 内 核 空间 的 
BO， 这 样 GPU 才 可 以 访问 。_mesa_flush 最 后 将 调用 3D 驱 动 中 的 函数 
_intel_batchbuffer_flush 进 行 复制 : 


Mesa-8.0.3/src/mesa/drivers/dri/i915/intel batchbuffer.c: 


Tne Tntel. batchpurtter ao | 


人 


if (intel->vtbl.finish batch) 
intel->vtbl .finish batch (intel); 


ret = do flush locked (intel); 


我 们 先 来 看 一 下 函数 finish batch。 对 于 i915 来 说 ， 其 指向 的 函数 是 


intel finish vb: 


Mesa-8.0.3/src/mesa/drivers/dri/i915/intel] tris.c 
Vold 1intel finish vbh(lstruct intel context *1intel) 


drm intel bo subdata(tintel=>prim.vh DG 0 se»); 


印 数 drm intel bo_subdata 我 们 已 经 见 过 了 了， 其 将 用 户 空 间 的 项 点 绥 


冲 中 的 数据 复制 到 内 核 空 间 中 你 存 顶 反 数 据 的 BO。 


接 下 来 ， 再 来 看 函数 intel batchbuffer flush 中 调用 的 
do flush locked: 


Mesa-8.0.3/src/mesa/drivers/dri/i915/intel batchbuffer.c 


stat1lic 1int do tush locked (struct intel context *1]ntel) 


ret = drm intel bo subdatalbatch->DbDoy 0 4*batch=->useds si.}3 


ret = drm intel bo mrb exec 人 


Ne 


函数 do_flush_locked 首 先 调用 drm_intel bo_subdata 将 用 户 刀 


室 间 的 批 
量 缓冲 中 的 数据 复制 到 内 核 空间 中 保存 批量 数据 的 BO。 至 此 ， 用 户 空 


闻 的 顶点 缓冲 和 批量 缓冲 中 的 数据 都 被 复 制 到 内 核 空 间 的 BO。 


在 将 用 户 空 间 的 数据 复制 到 内 核 空间 中 的 BO 后 ，do_flush_locked 调 


用 库 libdrm 中 的 函数 drm_intel_bo_mrb_exec 退 知 GPU 局 动 其 Pipeline 开 始 


演 染 ， 这 个 过 程 我 们 下 一 和 讨论 。 
6. 局 动 GPU 中 的 Pipeline 


将 数据 复制 到 内 核 空间 的 BO 后 ， 接 下 来 束 需 要 通知 GPU 来 读 取 这 
些 数 据 ， 并 执行 GPU 中 的 Pipeline。 以 Intel GPU 为 例 ， 其 规定 需要 将 批 
量 数 据 组 织 到 一 个 环形 绥 冲 区 中 ， 然 后 GPU 从 环形 缓冲 区 中 读 取 并 执行 


命令 ， 如 图 8-9 所 示 。 
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环形 缓冲 区 也 只 是 从 内 存 中 分 配 的 一 块 用 于 显存 的 普通 存储 区 ， 所 
以 ， 当 内 核 中 的 DRM 模 块 组 织 好 其 中 的 数据 后 ，GPU 并 不 会 目 动 到 环 
形 绥 剖 区 中 恋 取 数据 ， 而 是 需要 通知 GPU 来 谈 取 。 


那么 内 核 如 何 通 知 GPU 呢 ?熟悉 驱动 开发 的 读者 应 该 比较 容易 猿 
到 ， 方 法 之 一 束 是 直接 写 GPU 的 寄存 器 。Intel GPU 为 环形 缓冲 区 设计 了 
专门 的 寄存 器 ， 暴 型 的 包括 Head Offset、Tail Offset 等 。 其 中 和 寄存 器 


人 


Head Offset 中 记录 环形 缓存 区 中 有 效 数 据 的 起 始 位 置 ， 寄 存 右 Tail 
Offset 中 记录 的 则 是 环形 绥 存 区 中 有 效 数 据 的 结束 位 置 。 


一 旦 内 核 中 的 DRM 模 块 向 寄存 器 Tail Offset 中 写 入 数据 ，GPU 就 将 
对 比 寄存 器 Head Offset 和 Tail Offset 中 的 值 。 如 果 这 两 个 寄存 器 中 的 值 
不 相等 ， 那 么 就 说 明 环 形 缓冲 区 中 已 经 存在 有 效 的 命令 了 ，GPU 中 的 命 
令 解 析 单 元 〈Command Parser) 通过 DMA 的 方式 直接 从 环形 缓冲 区 中 
读 取 命令 ， 并 根据 命令 的 类 型 ， 定 同 给 不 同 的 处 理 引 警 。 如 果 是 3D 命 
令 ， 则 转发 给 GPU 中 的 3D 引 擎 ， 如 是 2D 命 令 ， 则 转发 给 GPU 中 的 


BLT 引 擎 ， 如 果 是 控制 显示 的 ， 则 转发 给 Display 引 擎 等 等 。 


理解 了 相 天 原理 后 ， 下 和 面 我 们 就 来 看 看 DRM 中 具体 的 实现 。 在 疝 
数 drm_intel_bo_subdata 将 数据 复制 到 内 核 空间 的 BO 后 ，do_flush_locked 
调用 了 函数 drm_intel bo_mrb_exec 回 内 核 DRM 模 块 发 送 命令 
DRM_IOCTL _I915_ GEM_EXECBUFFER 或 者 
DRM_IOCTL _1915_GEM_EXECBUFFER2〔 依 据 GPU 的 具体 情况 ) 。 以 
DRM 模 块 中 人 处理 命令 DRM_IOCTL 1I915_GEM_EXECBUFFER2 的 函数 
i915_gem_execbuffer2 为 例 ， 组 织 并 局 动 GPU 谈 取 环 形 缓冲 区 的 相关 代 
但 如 下 : 


linux-3.7.4/drivers/gpu/drm/i915/i915 gem execbuffer.c: 


int 1915 gem execbuffer2(...) 


{ 


ret = 1915 gem do execbuffer!(...); 


} 


static int 1915 gem do execbuffer(...) 


人 


ret = ring->dispatch execbuftter (ring, ...); 


} 


linux-3.7.4/drivers/gpu/drm/i915/intel ringbuffer.c: 


static int i1915 dispatch execbuffer(,..) 


人 


intel ring emit (ring, MI BATCH BUFFER START | MI BATCH GTT) ; 
intel ring emit (ring, offset | MI BATCH NON SECURE) ; 
intel ring advance (ring); 


Mg 


注意 函数 i915_dispatch_execbuffer 中 的 函数 intel_ring_emit， 访 者 一 
定 想 到 了 组 织 批量 缓冲 的 宏 OUT BATCH 的 定义 ， 疫 错 ， 这 里 就 是 在 填 
元 环形 缓冲 区 。 


在 组 织 好 环形 缓冲 后 ，i915_dispatch_execbuffer 调 用 了 函数 
intel ring_advance 扣 动 了 GPU 的 扳机 ， 相 关 代 码 如 下 : 


linux-3.7.4/drivers/gpu/drm/i915/intel ringbuffer.c: 


vold intel ring advance (struct intel ring buffer *ring) 


{ 


ring->write tailtring; ring->tall); 


static voild ring write tall (struct intel ring buffer *ring, 
u32 value) 


I91]5 WRITE TAIL(I1InNng, value).; 


} 
linux-3.7.4/drivers/gpu/drm/i915/intel ringbuffer.h: 


#define I915 WRITE TAIL{ring, val) \ 
I915 WRITE'(RING TAIL!{ (ring)->mmio base), val) 


以 i915 系 列 为 例 ，GPU 的 相应 寄存 需 在 CPU 地 址 空间 中 占据 的 地 址 
如 下 : 


linux-3.7,.4/drivers/gpu/drm/1915/1i915 reg.h: 


#define RENDER RING BASE Ox02000 
i#define RING TAIL (base) ( (base) +0x30) 
#define RING HEAD (base) ( (base) +0x34) 


根据 Pntel] 的 GPU 的 手册 ， 地 址 "0x02000+0x30" 恰 恰 就 是 GPU 的 寄存 
器 Tail Offset 在 CPU 的 地 址 空间 中 分 配 的 地 址 。 


根据 上 述 分 析 可 见 ， 内 核 的 DRM 模 块 通过 写 GPU 的 寄存 器 Tail 
Offset 启 动 了 GPU 中 的 Pipeline。 最 后 Pipeline 会 将 生成 的 图 像 的 像素 阵列 
输出 到 后 缓冲 的 BO。 


8.4.3 ”交换 前 缓冲 和 后 绥 冲 

应 用 程序 绘制 完成 后 ， 需 要 将 后 缓冲 交换 (swap) 到 前 缓冲 ， 其 中 
有 三 个 问题 需要 考虑 。 

(1) 谁 来 负责 交换 


如 末 应 用 目 己 负责 将 后 缓冲 更新 到 前 缓冲 ， 那 么 当 有 多 个 应 用 同时 
更 新 前 缓冲 时 如 何 协调 ?” 旺 然 将 区 换 动作 区 给 更 擅长 窗口 过 理 的 X 服 务 
名 统一 协调 更 为 合理 。 


如 朱 X 服 务 郁 开局 了 复合 和 扩展， 更 需要 知 关 应 用 已 经 更 新 前 缓冲 
因为 X 服 务 右 需要 退 知 复合 官 理 占 章 刹 合成 前 绥 冲 。 


. 


综 上 ， 应 该 由 X 服 务 奏 来 负 贡 交换 前 后 缓冲 。 


对 于 GPU 文 持 区 换 的 情 次 ，X 服 务 夫 通 过 2D 张 动 请 求 GPU 进行 区 
换 。 人 否则 X 服 务 器 只 能 将 前 缓冲 和 后 缓冲 的 BO 映射 到 用 户 空间 ， 使 用 
CPU 逐 位 复制 。 


(2) 交换 的 时 机 


与 2D 应 用 不 同 ，3D 程 序 通 利水 及 复杂 的 动画 和 图 像 ， 如 采 有 显示 控 
制 辫 正在 扫 扩 前 缓冲 的 同时 ，X 有 服务器 更 新 了 前 缓冲 ， 那 么 可 能 会 导致 


各 出 现 撕 襟 (tearing) 现象 。 所 谓 的 撕 狐 束 古 指 本 应 该 分 为 两 想 吕 示 
在 屏幕 上 的 图 像 同 时 显示 在 屏幕 上 ， 上 半 部 分 是 一 帧 的 上 半 部 分 ， 而 下 
半 部 分 是 万 外 一 帧 的 下 半 部 分 ， 情 况 产 重 的 将 寻 致 屏 医 出 现 内 烁 
(flicker) 。 


以 一 个 刷新 京 为 60Hz 的 显示 器 为 例 ， 显 示 控 制 器 每 隅 1/60 秒 从 前 绥 
冲 恋 取 数据 传 给 显示 器 。 每 开始 新 的 一 帧 扫描 时 ， 显 示 控 制 磺 都 从 前 组 
冲 的 最 左上 角 的 点 ， 即 第 一 行 的 第 一 个 点 开始 ， 逐 行进 行 扫 挡 ， 直 到 反 
描 到 图 像 右 下 和 角 的 点 ， 即 最 后 一 行 的 最 后 一 个 点 。 经 过 这 样 一 个 过 程 之 
后 ， 束 完成 了 一 帧 图 像 的 扫描 。 然 后 显示 控制 器 回溯 (retrace〉 到 第 一 
行 的 第 一 个 点 的 位 置 ， 等 每 下 一 帧 扫 摘 开始 ， 如 图 8-10 所 示 。 
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图 8-10 图 像 扫 描 示 意图 


更 新 一 帧 图 像 远 不 需要 1/60 秒 ， 从 更 新 完 最 后 一 行 的 最 右 侧 一 个 
氮 ， 到 开始 扫 拉 下 一 师 之 间 的 间 隐 被 称 为 垂直 衬 采 〈vertical blank) ， 
简称 为 "vblank"。 显 然 ， 如 果 在 vblank 这 段 时 间 更 新 前 缓冲 ， 就 不 会 
致 上 述 撕 歼 和 闪烁 现象 的 出 现 了 。 


(3) 交换 的 方法 


交换 后 缓冲 和 前 缓冲 通 沿 有 两 种 方法 : 第 一 是 复制 ， 在 绘制 完成 
后 ，X 服 务 融 将 后 缓冲 中 的 数据 复制 到 前 缓冲 ， 如 图 8-11 所 未。 
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图 8-11 复制 模式 


但 是 这 种 方法 效率 相对 较 低 ， 所 以 开 友 者 们 人 设计 了 页 翻转 柑 式 
(page flip〉。 页 翻转 模式 不 进行 数据 复制 ， 而 是 将 显示 控制 上 莫 指 问 后 
绥 钟 。 后 缓冲 与 前 缓冲 的 角色 进行 互 换 ， 后 缓冲 桥 号 一 变 成 为 前 缓冲 ， 
显示 控制 堆 将 扫描 后 缓冲 的 数据 到 屏 医 ， 而 原来 的 前 缓冲 则 变 成 了 后 组 


冲 ， 应 用 程序 在 前 缓冲 上 进行 绘制 ， 如 图 8-12 所 示 。 
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图 8-12 页 翻转 模式 


页 翻转 模式 虽然 效率 蜗 ， 但 也 不 是 所 有 的 情况 部 适用 。 典 型 的 ， 妆 
一 个 应 用 处 于 全 屏 模 式 时 ， 可 以 米 用 页 翻转 柑 式 互 换 前 绥 冲 和 后 绥 冲 。 
但 是 这 对 于 使 用 复合 党 理 如 的 图 形 系统 来 襄 ， 其 实 已 经 大 大 的 提升 效 认 
了 ， 因 为 复合 定理 此 控制 看 整个 屏 龙 的 喧 示 ， 所 以 复合 定理 占 可 以 使 用 
页 翻转 模式 交换 前 缓冲 和 后 绥 冲 。 


1. 应 用 有 发送 交换 请 求 


对 于 一 个 OpenGL 程 序 来 说 ， 在 绘制 完成 后 ， 需 要 调用 GLX 扩 展 中 
的 函数 gjXSwapBuffers| 可 XX 服 务 器 发 出 交换 请 求 : 


Mesa-8.0.3/src/glx/glxcmds .c : 


又 _ EXPORT vold glXSwapBuffers (Display * dpy, GLXDrawable drawable) 


{ 


glFlush(); 


(*pdraw->psc->driScreen->swapBuffers) (pdraw, 0, 0, 0),，; 


gXSwapBuffers 首 和 匈 调 用 glFlush 司 动 Pipeline 进 行 福 染 。 人 然后 调用 
DRI2 扩 展 的 指针 swapBuffers 指 问 的 函数 同 X 服 务 颖 友 出 交换 请 求 。 
DRI2 扩 展 中 指针 swapBuffers 指 向 的 函数 是 DRI2SwapBuffers: 


Mesa-8.0.3/src/glx/dri2.c: 


Void DRI2SwapBuffers(...) 


{ 


GetRed (DRI2SwapBuffers, IEC) ; 


regq->reqlype = lIDnto->coaes->nma]or opcode; 
regq->dri2RegqType = X DRI2SwapBuffers; 
regq->drawable = drawable, 


load gwap redqlregq; target msc,; divigor; remalinder); 


XReply ldpy, (xReply *)&rep, 0, xFalse), 


函数 DRI2SwapBuffers 创 建 了 一 个 类 型 为 X_DRI2SwapBuffers 的 X 请 
求 ， 然 后 调用 冰 数 _XReply 将 这 个 请 求 发 送 给 X 服 务 妖 。 


2.X 服 务 耸 处 理 交 换 请 求 


X 服 务 器 中 处 理 来 目 OpenGL 应 用 的 请 求 在 DRIGLX 的 扩展 模块 


中 ， 对 应 的 函数 是 DRI2SwapBuffers: 


XOorg-server-1.12.2/hw/xfree86/dri2/dri2.c: 


int DRI2SwapBuffers(...) 


for (i = 0; i < pPriv->bufferCount; i++) { 
if (pPriv->buffersl[i] ->attachment == DRI2BufferFrontLeft) 
pDestBuffer = (DRI2Bufferptr) pPriv->buffersl(i]; 
If (pPriv->buffers|[li]->attachment == DRI2BufferBackLeft) 
pSrcBuffer = (DRI2BufferPtr) pPriv->buffers |1]; 
} 
ret = (*ds->ScheduleSwap) (client, pDraw, pDestBuffer, 


psSrcBuffer, swap target, divisor, remainder, func, data); 


疯 数 DRI2SwapBuffers 首 先 获取 请 求 更 新 的 窗口 的 前 缓冲 和 后 绥 
冲 。X 服 务 器 在 前 面 创 建 帧 缓冲 时 已 经 将 各 个 缓冲 记录 到 了 各 个 窗口 
中 ， 所 以 这 里 取出 即 可 。 其 中 ，pDestBuffer 指 癌 前 缓冲 ，pSrcBuffer 指 
器 后 绥 冲 。 取 得 前 绥 冲 和 后 缓冲 后 ， 具 体 的 交换 动作 显然 需要 2D 了 驱动 
来 完成 。DRI2SwapBuffers 调 用 2D 驱 动 中 的 函数 ScheduleSwap 交 换 后 绥 
冲 和 前 缓冲 。 


在 Intel GPU 的 2D 张 动 中 ， 函 数 指 针 ScheduleSwap 指 癌 函 数 
1830DRI2ScheduleSwap: 


xf86-video-intel-2.19.0/src/intel dri.c: 


01 static int I830DRI2ScheduleSwap(...) 


D2 1 

03 

04 drmVBlank vbl; 

O05 i 

06 DRI2FrameEventPtr swap info = NULL.; 

07 enum DRIZ2FrameEventType swap type = DRI2 SWAP; 
08 可 

09 if (can exchange (draw, front, back)) { 

10 Swap type = DRI2 FLIP; 

11 flip = 1; 

> } 

13 

14 swap info->type = swap type; 

二 

16 vbl.request.signal = (unsigned long)swap info; 
:ey ret = drmWaitVBlank (intel->drmSubFD, &vbl); 

18 

生字 古 


前 面谈 到 X 服 务 器 应 该 在 vblank 时 更 新 前 缓冲 ， 实 现 中 也 确实 如 
此 。1I830DRI2ScheduleSwap 没 有 直接 进行 交换 ， 而 是 调用 库 libdrm 中 的 
图 数 drmWaitVBlank， 这 个 函数 告诉 旺 示 控制 左 ， 在 vblank 时 ， 问 内 核 
发 这 vblank 事 件 ， 如 第 17 行 代码 所 示 。 


函数 1830DRI2ScheduleSwap 需 要 做 的 另外 一 件 事 就 是 判断 前 缓冲 和 
后 绥 冲 的 交换 方式 。 默 认 的 交换 方式 是 复制 ， 如 第 7 行 代码 所 示 。 第 
9~12 行 代码 调用 函数 can_exchange 来 判断 是 否 可 以 使 用 更 高 效 的 页 翻转 
Intel GPU 的 2D 驱 动 在 初始 化 时 注册 vblank 事 件 的 回调 函数 是 


intel vblank handler: 


Xf86-video-intel-2.19.0/src/intel display.c: 
static void intel vblank handler(...) 


{ 


I830DRI2FrameEventHandler (frame, tv sec, tv usec, event),; 


} 


xf86-video-intel-2.19.0/src/intel dri.c: 
void I830DRI2FrameEventHandler(..., DRI2FrameEventPtr swap info) 
switch (swap info->type) { 
case DRI2 FLLP: 
js LE we can BllLL HL, 。 光 / 
If (can exchange (drawable, swap info->front, 
swap info->back) &e& 
I830DRI2ScheduleFlip(intel, drawable, swap info)) 


return,; 


/* else fall through to exchange/blit */ 
case DRI2 SWAP: { 


I830DRI2CopyRegion(drawable, &region, swap info->front, 
swap_ info->back),; 


收 到 vblank 事 件 后 ， 函 数 1830DRI2FrameEventHandler 首 先 判断 等 待 
vblank 的 交换 请 求 希 望 使 用 的 是 页 翻转 模式 还 是 复制 模式 。 如 果 是 页 翻 
转 模 式 ， 为 了 安全 起 见 ， 再 次 使 用 函数 can_exchange 检 查 是 否 可 以 进行 
页 翻转 ， 确 认 没 有 问题 后 ， 则 调用 函数 1830DRI2ScheduleFlip 执 行 翻 
转 。 和 否则 ， 则 调用 函数 I1830DRI2CopyRegion 将 后 缓冲 的 内 容 复制 到 前 组 
冲 。 


(1) 页 翻转 模式 


进行 页 翻转 的 函数 1830DRI2ScheduleFlip 的 相关 代码 如 下 : 


xf86-video-intel-2.19.0/grc/intel dri,.,c: 


static Bool I830DRI2ScheduleF]lip(...) 


人 
if (lintel do BaogeLRDLILRERJL we al) 


I830DRI2ExchangeBuffers(intel, info->front, info->back); 


1830DRI2ScheduleFlip 调 用 2D 了 驱动 中 的 函数 intel_do_pageflip 进 行 翻 
转 。 当 然 翻 转 后 需要 更 新 状态 ， 包 括 更 新 当 Screen Pixmap 对 应 的 BO， 
这 就 是 函数 1830DRI2ScheduleFlip 调 用 1830DRI2ExchangeBuffers 的 目 
的 。2D 驱 动 中 函数 intel_do_pageflip 的 代码 如 下 : 


xf86-video-intel-2,19,0/src/intel display.c: 


Rool intel do pageitlip(...) 


| 


if (drmModePageFlip(...)) 1 


图 数 intel do_pageflip 并 没有 使 用 库 libdrm 提 供 的 接口 ， 如 
drmModeSetCrtc 设 置 显示 控制 闫 扫 摘 的 绥 冲 ， 而 是 使 用 了 接口 
drmModePageFlip。 相 比 于 有 点 莽撞 的 drmModeSetCrtc， 函 数 
drmModePageFlip 能 确保 是 在 发 生 vblank 时 设置 显示 控制 器 扫描 的 绥 
冲 。drmModePageFlip 将 翻转 的 动作 排队 到 下 一 个 vblank 事 件 肥 生 时 的 
处 理 队列 中 ， 在 下 个 vblank 发 生 时 ， 设 置 显 示 控 制 器 扫描 的 缓冲 。 


(2) 复制 模式 
处 理 复 制 模 式 的 函数 1830DRI2CopyRegion 的 代码 如 下 : 


xf86-video-intel-2.19.0/src/intel dri.c: 


static void I830DRI2CopyRegion (DrawablePtr drawable, ...) 


人 


GC=->OpPS->CopyArea(srcs dst, SC »、 4)} 


看 到 ops， 读 者 一 定 非常 熟悉 了 ， 没 错 ， 这 就 是 我 们 前 面 讨 论 2D 演 
染 时 提 及 的 画笔 。 在 UXA (uxa_ops) 中 ，CopyArea 对 应 的 函数 是 


intel_uxa_copy: 


xf86-video-intel-2,19.0/src/intel uxa.c: 


01 static void intel uxa copy(,...) 

02 1{ 

03 站 

04 { 

05 BEGIN PATCH BLT'(8).,; 

06 

07 cmd = XY SRC COPY BLT CMD; 

08 本 

09 OUT BATCH (cmd) ; 

10 

法 OUT BATCH (intel->BR[13] | dst pitch) ; 

下 QUT BRRECRT Yi za 6 | (dt RL RR OXFEEEE))S 
a OUT BATCH((dst y2 << 16) | (dst x2 & 0xffff) ) ; 
14 OUT RELOC PIXMAP FENCED (dest, ...); 

15 OUT BATCH({8re yi wa 18) | (BC x1 € (Oxffff))': 
16 OUT BATCH (src pitch),; 

17 OUT RELOC PIXMAP FENCED(intel->render source, ...); 
18 

19 ADVANCE BATCH () ; 

20 } 


看 到 函数 intel_uxa_copy 的 内 容 是 人 否 似曾相识 ? 没 钳 ， 指 令 
XY_SRC_COPY_BLT 与 8.3.2 市 讨论 的 指令 XY_COLOR_BLT 非 第 相似 ， 
最 大 的 不 同 是 多 了 复制 的 源 的 信息 。Intel GPU 的 指令 
XY_SRC_COPY_BLT 的 格式 如 表 8-2 所 示 。 


表 8-2 Intel GPU 指令 XY_SRC_COPY_BLT 的 格式 


双 字 ( 寄存 器 ) 位 描 述 
| = BR13 15:00 目标 图 像 跨度 
31:16 目标 区 域 顶部 坐标 (Y1 ) 
2 = BR22 
15:00 目标 区 域 左 侧 坐 标 ( XX1 ) 
3 = BR23 一 一 -一 
目标 区 城 有 全 于 标 (X32) 
4=BR09 31:00 目标 区 域 基 址 
5 = BR26 i 和 
15:00 源 区 域 左 侧 坐 标 (XI1 ) 
31:16 保留 
6=BR1l et 一 
15:00 源 区 域 图 像 跨度 
7= BR12 31:00 源 区 域 基 址 


下 面 我 们 结合 表 8-2 来 分 析 函 数 intel _uxa_copy 为 GPU 组 织 批 量 绥 剖 
的 过 程 。 


1) 第 9 行 代码 填充 的 是 第 0 个 双 字 ， 即 BLT 引 擎 的 寄存 器 BR00。 这 
个 寄存 项 中 最 重要 的 了 驶 是 指令 的 操作 码 (Opcode) ， 即 第 22~28 位 。 对 
于 指令 XY SRC_COPY _BLT， 其 操作 码 是 0x53。 观 察 宏 


XY SRC COPY BLT CMD 的 定义 : 


xf86-video-intel-2,.19,0/src/1830 reg.,h:; 


#define XY SRC COPY BLT CMD ((2<<29) | (0x53<<22) | 6) 


其 中 从 第 22 位 开始 的 0x53 正 是 指令 XY_SRC_COPY_BLT 的 指令 
但 。 另 外 ， 第 29~30 位 设置 为 2， 竺 诉 GPU 这 个 指令 是 一 个 2D 指 令 ， 需 


要 GPU 和 定 回 给 BLT 引 擎 。 


2) 第 11 行 代码 填充 的 是 第 1 个 双 字 ， 对 应 BLT 引 擎 的 寄存 器 
BR13， 其 中 "intel->BR[13]" 在 8.3.2 节 我 们 已 经 讨论 过 ， 表 示 色 深 。 另 
外 ，dst_pitch 表 示 目 标 区 域 的 跨度 ， 上 所 谓 的 跨度 束 是 以 字 贡 为 单位 的 图 
形 的 宽度 。 


3) 第 12 行 代码 填充 了 第 2 个 双 字 ， 对 应 BLT 引 擎 的 寄存 器 BR22， 
这 个 寄存 器 中 保存 的 是 目标 区 域 的 左上 角 的 坐标 。 


4) 第 13 行 代码 填充 了 第 3 个 双 字 ， 对 应 BLT 引 警 的 寄存 器 BR23， 
这 个 寄存 器 中 保存 的 是 目标 区 域 的 右 下 角 的 坐标 。 


5) 第 14 行 代码 填充 了 第 4 个 双 字 ， 对 应 BLT3 引 擎 的 寄存 器 BR09， 
这 个 寄存 右 中 保存 的 是 存储 目标 区 域 像 系 阵列 的 BO， 当 然 使 用 的 是 BO 
在 GPU 虚 拟 地 址 空间 的 地 址 ， 即 BO 的 offset。 


6) 第 15 行 代码 填充 了 第 5 个 双 字 ， 对 应 BLT 引 擎 的 寄存 器 BR26， 
这 个 寄存 器 中 保存 的 是 源 区 域 的 左上 角 的 坐标 。 


7) 第 16 行 代码 填充 了 第 6 个 双 字 ， 对 应 BLT 引 警 的 寄存 器 BR11， 
这 个 寄存 器 中 保存 的 是 源 区 域 的 图 形 的 跨度 。 


8) 第 17 行 代码 填充 了 第 7 个 双 字 ， 对 应 BLT 引 擎 的 寄存 器 BR12， 
这 个 寄存 器 中 保存 的 是 存储 源 区 域 的 像素 阵列 的 BO 的 地 址 。 


8.5 Wayland 


将 所 有 图 形 全 部 交 由 X 服 务 器 绘制 的 这 种 设计 ， 在 以 2D 应 用 为 主 的 
时 代 ， 一 切 还 相安 无 事 。 但 是 随 痢 基于 3D 的 应 用 越 来 越 多 ， 效 率 问 题 
逐渐 凸显 出 来 。 与 2D 程 序 不 同 ，3D 程 序 的 数据 量 要 大 得 多 ， 所 以 应 用 
与 X 服 务 器 之 间 需 要 传递 大 量 的 数据 。 设 想 一 下 几 个 人 过 独木桥 和 万 人 
争 过 独木桥 的 场景 ， 显 然 ，X 曾 经 引 以 为 傲 的 设计 一 一 通过 网 络 通信 的 
客户 /服务 器 架构 ， 成 为 性 能 的 瓶 贷 。 


为 了 解决 这 个 问题 ，X 的 开 友 者 们 设计 了 DRI 机 制 ， 即 应 用 程序 不 
再 将 绘制 图 形 的 请 求 发 送 给 X 服 务 器 ， 而 是 由 应 用 程序 自行 绘制 。 这 种 
设计 与 X 最 初 的 设计 原则 虽然 有 些 格格 不 入 ， 但 是 从 东 种 程度 上 确实 组 
解 了 3D 应 用 的 效率 问题 。 


但 是 ， 好 景 不 长 ， 人 们 逐渐 不 再 满足 于 看 上 去 比较 “呆板 ”的 图 形 用 
户 界 面 ， 人 们 追求 具有 更 华丽 的 3D 特 效 的 图 形 用 户 界面 ， 比 如 窗口 弹 
出 和 关闭 时 的 放大 /缩小 动画 、 窗 口 之 间 的 透明 等 。 于 是 开发 者 们 为 X 设 
计 了 复合 《Composite) 扩展 ， 并 仿效 窗口 管理 恬 设 计 了 一 个 所 谓 的 复 


合 党 理 问 (Composite Manager) 来 实现 这 些 效果 。 


我 们 以 2D 绘 制 过 程 为 例 来 简要 地 看 一 下 什么 是 复合 扩展 以 及 复合 
管理 器 ， 如 图 8-13 所 示 。 
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图 8-13 复合 扩展 


开启 复合 扩展 后 ， 最 大 的 一 个 区 别 是 所 有 的 窗口 都 不 再 共享 一 个 前 
缓冲 ， 而 是 有 了 各 自 的 离 屏 区 域 。X 服 务 器 在 各 个 窗口 的 离 屏 区 域 上 进 
J 绘制 。 在 绘制 好 后 ，X 服 务 器 向 男 外 一 个 特殊 的 应 用 复合 管理 
(Composite Manager) ip 然后 由 复合 管理 器 请 求 X 服 务 
右 对 这 些 离 屏 的 窗口 的 绥 冲 区 进行 合成 ， 最 后 请 求 X 服 务 占 显示 到 前 绥 
促 。 


下 面 的 代码 片段 展示 了 复合 常理 为 窗口 创建 离 屏 缓冲 的 过 程 : 


XOIrg-Server-1.12.2/composite/compinit.c: 


Bool compScreenInit (ScreenPtr pScreen) 


| 


pScreen->CreateWindow = compCreateWindow.; 
XOIrg-Server-1.12.2/composite/compwindow.c: 


Bool compCreateWindow (WindowPtr pW1in) 


{ 


compRedlirectWindow!( ... ); 


我 们 看 到 ， 在 开局 复合 扩展 后 ， 屏 项 中 的 指针 CreateWindow 已 经 指 
向 了 复合 扩展 中 实现 的 函数 compCreateWindow。 而 在 函数 
compCreateWindow 中 ， 其 使 用 函数 compRedirectWindow 将 窗口 从 前 组 
冲 重 定 加 到 一 个 离 屏 区 域 。 


在 这 个 复合 过 程 中 ， 融 是 制造 那些 绚丽 效果 的 地 方 。 比 如 在 合成 的 
过 程 中 ， 我 们 使 用 如 图 8-14 的 方法 ， 束 可 以 使 窗口 看 起 来 是 以 放大 效果 
出 现 的 。 





图 8-14 以 放大 效果 出 现 的 窗口 


使 用 复合 管理 后 ， 绚 丽 的 效 朱 有 了， 但 是 仔细 观察 图 8-13 会 及 现 ， 
X 极 人 诉 病 的 基于 网 络 通 信 的 客户 /服务 亏 模 坏 的 问题 义 变 得 产 重 了 。 除 
了 X 服 务 谷 和 应 用 之 间 的 通信 外 ， 为 了 进行 合成 ，X 服 务 礁 和 复合 管理 
名 之 间 义 多 了 一 层 通 信和 关系 。 


事实 上 ， 在 DRI 的 演进 过 程 中 ，X 不 断 被 拆 分 和 瘦身 ， 开 发 者 从 X 中 
移 除 了 大 量 与 泻 染 有 关 的 功能 到 内 核 和 各 种 程序 库 中 。 慢 慢 的 ， 人 们 发 
现 ，X 所 做 的 事情 已 经 大 为 减少 ， 蔡 代 X 已 经 不 是 一 项 不 可 能 的 任务 。 
于 是 一 部 分 开发 者 开始 尝试 为 Linux 开 发 蔡 代 X 的 窗口 系统 ，Kristian 
Hggsberg 提 出 了 Wayland。 事 实 上 ， 这 一 个 过 程 迟早 要 发 生 的 ， 即 使 不 
征 Wayland， 也 会 涌现 出 如 Yayland、Zayland 等 。 


Wayland 并 不 是 一 个 全 新 的 事物 ， 它 是 站 在 X 这 个 已 人 的 屑 膀 上 ， 
在 X 的 不 断 污 进 中 进化 而 来 的 。 虽 然 从 名 字 上 看 ，Wayland 与 X 没 有 丝 坚 
相干 ， 但 是 实际 上 两 者 的 联系 可 谓 千 丝 万 缕 。Wayland 的 开 友 者 Kristian 
Hggsberg 曾 经 是 X 的 DRI 的 主要 开 有 者 之 一 。 和 套用 一 句 奔 驰 的 广告 语 “ 经 
典 是 对 经 典 的 继承 ， 经 典 是 对 经 典 的 背叛 ?，Wayland 去 择 了 X 的 客户 / 服 
务 苍 架构 ， 但 是 继承 了 X 为 提高 绘制 效率 不 懈 努 力 的 成 有 末 : DRI。 除 了 
人 馆 辑 上 设计 上 不 同 外 ，Wayland 基 本 的 演 染 原理 与 我 们 前 面 讨 论 的 2D 和 
3D 的 演 染 原理 完全 相同 。 基 本 上 ， 基 于 Wayland 的 图 形 架 构 如 图 8-15 所 


人 小。 
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图 8-15 Wayland 体系 访 构 


Wayland 本 刁 是 一 个 协议 ， 其 具体 的 实现 包括 一 个 合成 器 
CCompositor) 以 及 一 套 协 议 实现 库 。 当 然 ， 图 形 库 为 了 与 合成 器 进行 
通信 ， 在 图 形 库 中 需要 加 入 Wayland 协 议 的 相关 模块 ， 也 就 是 图 8-15 中 
的 Wayland backend 部 分 ， 当 然 这 些 都 可 以 基于 Wayland 提 供 的 库 ， 而 不 
必 从 头 再 将 wayland 协 议 实现 一 遍 。 


在 Wayland 下 ， 所 有 的 图 形 绘制 完全 由 应 用 目 己 负责 。 其 绘制 过 程 


与 我 们 前 面 讨论 的 2D 和 3D 的 绘制 过 程 完全 相同 ， 只 不 过 2D 的 绘制 部 分 
也 搬 到 图 形 库 中 了 ， 绘 制 动 作 与 合成 副 没 有 丝 坚 关系 。 而 在 绘制 后 ， 广 
用 将 前 绥 冲 和 后 绥 冲 进行 对 调 ， 并 同 合 成 融 友 过 Damage 通 州 ， 当 然 磊 
色 绥 冲 不 一 定 是 前 后 两 个 ， 在 其 体 实现 中 ， 有 的 图 形 系统 可 能 使 用 3 
个 、4 个 甚至 更 多 。 在 收 到 Damage 通 知 后 ， 合 成 如 将 应 用 的 前 缓冲 合成 
到 目 己 的 后 绥 冲 中 。 而 合成 占 的 这 个 合成 过 程 ， 与 普通 应 用 的 绘制 过 程 
开 巨 本 质 区 列 ， 也 十 退 过 图 形 库 完成 。 


在 合成 完成 后 ， 合 成 融 对 调 后 绥 促 与 前 缓冲 ， 开 设置 显示 控制 弟 指 
器 新 的 前 缓冲 ， 即 原来 的 后 缓冲 。 此 前 的 前 缓冲 作为 狐 的 后 缓冲 ， 并 作 
为 合成 蕉 下 一 次 合成 的 现场 ;而 原来 的 后 绥 神 则 变 成 现在 的 前 缓冲 ， 用 
于 旦 示 控 制 耸 的 扫 朱 输出 。 


光盘 内 容 


光盘 下 载 地 址 : http:/pan.baidu.com/s/1o6p43O2 


